Hodnocení charakteristických rysů v kombinovaných přístupech k výběru obalů

experimenty provedené v rámci popsaného výzkumu byly provedeny ve dvou fázích. V první fázi byl algoritmus sekvenční zpětné eliminace (SBE), aplikovaný v modelu obalu, použit ke stanovení pořadí charakteristických rysů a odhalení jejich relevance. Obal byl konstruován pro dva typy klasifikátorů, minimální algoritmy pro rozhodování o krytí (MCDA) odvozené v DRSA a umělé neuronové sítě.

oba získané žebříčky byly dále použity ve druhé fázi, kde byla provedena redukce atributů, opět pro induktory pravidel a spojovacích látek, přičemž byl pozorován jejich výkon. Eliminace proměnných pro klasifikátor DRSA v této fázi byla provedena dvěma způsoby: vyřazením atributů a vyvoláním nových pravidel a algoritmů a odmítnutím pravidel z dříve generovaného algoritmu úplného rozhodnutí (FDA) se všemi pravidly na příkladech, odvozenými pro všechny zvažované funkce.

postupy byly aplikovány na dva páry datových souborů. Primárním klasifikačním úkolem bylo binární přiřazení autorství se stylometrickými rysy. Pro srovnání byly testy provedeny také pro dataset křivek s podobnými charakteristikami (stejný počet tříd, srovnatelný počet vzorků a atributů). Výsledky pro tento druhý datový soubor jsou uvedeny na konci této části.

stanovení pořadí funkcí pomocí SBE

vzhledem k tomu, že klasifikátor DRSA měl být používán jako obal s postupnou zpětnou redukcí funkcí, znamenalo to začít s kompletní sadou atributů a eliminací jednoho prvku najednou. Proto by indukce všech pravidel na příkladech v každém případě byla nepraktická, pokud jde o 25 funkcí v algoritmu FDA, existovalo 62 383 rozhodovacích pravidel. Namísto, minimální krycí rozhodovací algoritmy MCDA byly odvozeny a jejich výkon byl použit k výběru atributu, jehož snížení poskytlo nejlepší výsledky ve srovnání s ostatními na stejné úrovni. Podrobnosti pro všechny kroky jsou uvedeny v tabulce 1, Kde pravý sloupec (i) ukazuje zavedené DRSA pořadí charakteristických rysů.

Tabulka 1 zpětné odstranění atributů založených na výkonu klasifikátorů DRSA

horní řádek tabulky odpovídá 0. redukčnímu stupni, tedy klasifikátoru pravidel indukovanému pro všech 25 studovaných podmíněných atributů, uvedených ve sloupci (c). Generovaný algoritmus minimálního krytí sestával z 30 základní pravidla, který byl omezen pouze na 6 zatímco požadoval, aby jejich minimální podpora byla rovna alespoň 6. Maximální přesnost klasifikace získaná uloženým omezením byla 76,67 % správně rozpoznaných zkušebních vzorků. Přesnost klasifikace uvedená v tabulce (a pro všechny ostatní případy dolování dat pomocí DRSA uvedené v tomto článku) se vztahuje pouze na případy, kdy jsou všechna odpovídající pravidla správně klasifikována. Nejednoznačné případy protichůdných rozhodnutí nebo neexistence odpovídajících pravidel byly vždy považovány za nesprávné (což je poměrně přísné ,ale omezuje další zpracování potřebné jinak).

Dále bylo zkonstruováno 25 nových klasifikátorů MCDA, každý s 24 vstupními funkcemi, s jedním atributem eliminovaným a jejich výkon testován a porovnáván. Z těchto systémů poskytl nejlepší výsledek ten se sníženou funkcí odpovídající frekvenci použití pro „A“, takže tento atribut je vybrán jako nejméně relevantní ze všech kandidátů a první, který má být vyloučen, jak je uvedeno ve sloupci i) tabulky.

sada 24 zbývajících proměnných dává základ pro další redukční stupeň s indexem rovným 1, který je uveden v tabulce 1 ve druhém řádku. Opět nejlepší rozhodovací algoritmus MCDA sestával z 30 pravidel, ale s podporou rovnou nebo vyšší než 2, existovalo 17 pravidel s maximální klasifikací dosahující 77,78 %.

ve sloupci (h) tabulky lze pozorovat, že přesnost klasifikace se postupně zvyšuje ze 76,67% až na maximum 91,11% správně rozpoznaných vzorků, pokud ve vstupní sadě zbývá pouze 5, 4 nebo 3 znaky, pak se sníží na 84,44% pro dva podmíněné atributy a 61,11 % pro jeden atribut.

proces eliminace atributů lze interpretovat tak, že systém vyřadí tyto prvky, které jsou irelevantní nebo nadbytečné, a ponechá je nezbytné pro klasifikaci, v důsledku čehož se přesnost klasifikace buď zvyšuje, nebo je alespoň na stejné úrovni, ale pro méně prvků. Pořadí, ve kterém jsou atributy odstraněny, odráží jejich význam. Když je toto pořadí obráceno, výkon klasifikátorů DRSA se okamžitě a nenávratně snižuje, což je znázorněno na obr. 1.

obr. 1
číslo1

přesnost klasifikace DRSA ve vztahu k počtu znaků v sekvenční zpětné eliminaci pomocí MCDA, ve srovnání s redukcí atributů pomocí obráceného hodnocení

stejný postup postupné zpětné redukce byl dále aplikován na klasifikátory ANN (Tabulka 2), počínaje konstrukcí sítě pro všech 25 funkcí. U této sady byla průměrná přesnost klasifikace těsně nad 91 %. Tato hodnota je zjevně vyšší než u základního klasifikátoru DRSA, u kterého to bylo pouze 76, 67 %. Nicméně, je třeba poznamenat, že nejednoznačná klasifikace systému založeného na pravidlech, protichůdná rozhodnutí nebo žádná shoda pravidel, byla ve všech zvažovaných případech považována za nesprávnou a která ovlivnila tuto nižší prediktivní přesnost. A co víc, generování rozhodovacích algoritmů s minimálním krytím nezaručuje indukci nejlepších pravidel, s nejvyšším potenciálem pro správnou klasifikaci, a je zcela běžné, že rozhodovací algoritmy konstruované s jinými přístupy testují výrazně lépe, přesto za cenu složitějších postupů, více výpočetních nákladů a více času na zpracování .

Tabulka 2 zpětné odstranění atributů založených na výkonu klasifikátorů ANN

pozitivní změna klasifikačního poměru nebo stejný výkon pro méně vstupů není jediným ukazatelem relevance atributu nebo redundance. Pokud je některá funkce snížena, je odpovídajícím způsobem upravena také vnitřní struktura klasifikátoru. Pro zpracování DRSA to znamená méně základních pravidel v rozhodovacím algoritmu, zatímco u umělé neuronové sítě se její vrstvy zmenšují odstraněním neuronů.

pokud taková menší síť není horší než před redukcí, znamená to, že relevance nedávno vyřazeného vstupu je zanedbatelná a lze ji považovat za nadbytečnou. Výkon je znázorněn na obr. 2, zatímco obr. 3 ukazuje, co se stane s přesností klasifikace systému, když jsou vstupní funkce sníženy při sledování obráceného hodnocení ANN. Dva grafy z obr. 2 a 3 ukazují tytéž trendy, které jsou viditelné v dříve vyneseném výkonu klasifikátorů DRSA na obr. 1.

obr. 2
číslo2

ANN klasifikační přesnost pozorovaná v sekvenčním procesu zpětné eliminace, ve vztahu k počtu uvažovaných znaků, a pro každý průměr, je uveden maximální a minimální výkon

obr. 3
číslo3

přesnost klasifikace ANN ve vztahu k počtu znaků, pozorováno při zpětném snižování vstupů při sledování obráceného hodnocení ANN. Pro každý průměr je uveden maximální a minimální výkon

když porovnáme hodnocení DRSA a ANN proti sobě a analyzujeme skóre přiřazená všem atributům, vidíme, že i když oba typy klasifikátorů pracují na stejných datových sadách, výsledné pořadí redukovaných funkcí je odlišné, pouze poslední zbývající funkce je v obou žebříčcích stejná: frekvence použití pro“ne“. To je přímý důsledek inherentních charakteristik induktorů, které jsou převedeny do žebříčku vypočteného s jejich pomocí.

vzhledem k tomu, že obaly jsou často obviňovány z takové zaujatosti, musí být získané hodnocení pozorováno v procesu snižování charakteristických znaků pro jiné klasifikační systémy kombinací obalů stejného a odlišného typu, aby se vyhodnotila jejich užitečnost prostřednictvím testů, což je ilustrováno v další části.

využívající pořadí prvků v jejich redukci

V návaznosti na obecnou kategorizaci přístupů k výběru funkcí patří hodnocení s filtry. V prezentovaném výzkumu byly získány dva žebříčky pomocí obalů založených na DRSA a ANN, které jsou uvedeny v nejpravděpodobnějších sloupcích tabulek 1 a 2. Tato uspořádání byla dále použita k odfiltrování podmíněných atributů z původní sady 25, při zpětné eliminaci vstupních proměnných pro nové klasifikátory.

podrobnosti o aplikaci hodnocení ANN na zpětnou redukci atributů při zpracování DRSA, což má za následek hybridní řešení, jsou uvedeny v tabulce 3. Za prvé, byly odmítnuty podmnožiny funkcí se zvyšujícími se kardinalitami, a pak pro zbývající podmnožiny, byly indukovány nové rozhodovací algoritmy, s poskytováním jen minimálního krytí MCDA,a také s odvozením všech pravidel na příkladech FDA.

Tabulka 3 zpětné odstranění podmíněných atributů pomocí hodnocení ANN s indukcí nových rozhodovacích algoritmů

vzhledem k tomu, že přesnost klasifikace je obvykle považována za nejdůležitější faktor udávající kvalitu získaného roztoku, můžeme zaměřit naši pozornost na dva (g) sloupce v tabulce 3 nebo graf na obr. 4. Pro klasifikátory MCDA i FDA, existuje několik případů zlepšeného nebo stejného výkonu, když jsou funkce sníženy, přesto zisk, zvažováno buď z hlediska počtu odmítnutých funkcí, nebo zvýšení prediktivní přesnosti, nebo nižší počet rozhodovacích pravidel zbývajících v algoritmu, není tak vysoký, jak bylo dříve pozorováno u jednoduchých obalů ANN nebo MCDA.

obr. 4
číslo4

přesnost klasifikace pro rozhodovací algoritmy MCDA a FDA indukované po zpětné eliminaci atributů na základě hodnocení ANN, ve vztahu k počtu funkcí

namísto redukce podmíněných atributů a následného odvozování nových rozhodovacích algoritmů, což může být velmi časově náročné, můžeme tyto atributy také eliminovat vyřazením pravidel s Podmínkami na nich, omezení všech pravidel na příkladech rozhodovací algoritmus indukovaný dříve pro všechny funkce . Takový přístup lze považovat za provedení pořadí pro rozhodovací pravidla.

Za prvé, každému pravidlu v indukovaném algoritmu je přiřazeno skóre založené na individuálních skóre pro všechny atributy zahrnuté v předpokladové části pravidla. Ze všech těchto elementárních skóre, odpovídajících základním podmínkám, je vybrán nejvyšší, označující atribut, který je vnímán jako nejméně důležitý; tedy první, který má být vyloučen, a toto skóre je dáno rozhodovacímu pravidlu. Pak jsou všechna pravidla seřazena podle jejich skóre a v každém kroku redukce jsou všechna pravidla s určitým skóre odmítnuta, což má za následek snížené rozhodovací algoritmy.

podrobnosti o tomto postupu hodnocení rozhodovacích pravidel jsou uvedeny v tabulce 4. Pro srovnání, jsou zde také uvedeny výsledky redukce algoritmu FDA při sledování obráceného hodnocení ANN, oba vyneseny také na obr. 5.

Tabulka 4 redukce všech pravidel na příkladech algoritmu (FDA) pomocí Ann feature ranking a jeho reverse

aplikace ANN žebříčku ve snížení FDA má za následek poměrně strmý pokles počtu zbývajících rozhodovacích pravidel, zatímco klasifikátory předpovídají se stejnou nebo jen mírně sníženou přesností. Obrácené hodnocení ANN přináší mnohem pomalejší redukci algoritmu, ale výkon se okamžitě a nenapravitelně zhoršuje.

obr. 5
figurka5

redukce algoritmu FDA při sledování hodnocení ANN a jeho opaku. Prediktivní přesnost je vynesena ve vztahu k počtu znaků

vzhledem k tomu, že stanovení pořadí DRSA prostřednictvím sekvenční zpětné eliminace s generováním algoritmů rozhodování o minimálním krytí je považováno za samostatný proces, lze toto hodnocení použít také v postupu hodnocení a redukce rozhodovacích pravidel, omezení všech pravidel na příkladech algoritmus, jehož výsledky jsou uvedeny v tabulce 5 a výkon uvedený na obr. 6.

Tabulka 5 zpětné odstranění rozhodovacích pravidel ze všech pravidel na příkladech (FDA) algoritmus indukovaný pro všechny funkce, s následujícím hodnocením atributů DRSA a jeho obrácením

tendence viditelné v prediktivní přesnosti pro snížené rozhodovací algoritmy při sledování hodnocení DRSA a jeho zpětného chodu přímo připomínají ty, které byly pozorovány dříve v režimu obalu, když bylo hodnocení stanoveno. Postupy umožňují odfiltrovat tato pravidla z algoritmu FDA, které obsahují podmínky pro irelevantní atributy a návratové algoritmy s výrazně sníženým počtem rozhodovacích pravidel při zachování nebo dokonce zvýšení přesnosti klasifikace.

obr. 6
číslo6

snížení všech pravidel na příkladech rozhodovacího algoritmu při sledování hodnocení funkcí DRSA a jeho opaku

když byl DRSA Ranking použit při snižování vstupních charakteristických rysů umělé neuronové sítě, vyústilo to v další hybridní řešení. V každé eliminační fázi, jeden prvek byl ignorován a jeho vliv na výkon sítě byl studován, jak je znázorněno na obr. 7. Při využití obráceného pořadí (obr. 8), srovnání těchto dvou grafů odhaluje velmi blízkou podobnost s grafem zobrazeným na obr. 1, ilustrující výkon DRSA obalu zaměstnávající SBE.

obr. 7
figurka7

snížení charakteristických rysů pro klasifikátor ANN při sledování hodnocení DRSA. Prediktivní přesnost je vynesena ve vztahu k počtu znaků a pro každý průměr je uveden maximální a minimální výkon

obr. 8
figurka8

snížení charakteristických rysů pro klasifikátor ANN při sledování obráceného hodnocení DRSA. Prediktivní přesnost je vynesena ve vztahu k počtu znaků a pro každý průměr je uveden maximální a minimální výkon

ze všech testovaných kombinací obalů byl nejlepší výkon zobrazen pro klasifikátory ANN využívající hodnocení DRSA při zpětné eliminaci funkcí (obr. 7). Dobré výsledky byly také získány v redukci všech pravidel na příkladech algoritmu generovaného pro všechny funkce, při sledování DRSA pořadí (Tabulka 5; obr. 6). V tomto případě to však lze vysvětlit zkreslením obalu, když jsou kombinovány dva systémy stejného typu, sdílející stejné vlastnosti. Totéž nelze uvést pro první případ, protože rozdíly mezi klasifikátory DRSA a ANN jsou jasně ukázány v pozorovaném procesu postupné zpětné eliminace funkcí, což má za následek dvě výrazně odlišná hodnocení.

použití hodnocení ANN v zpětné redukci atributů a následné navození nových pravidel a algoritmů pro všechna pravidla na příkladech umožňuje vyřadit osm proměnných (32 %) dříve, než začne výkon klesat (Tabulka 3; obr. 4). ANN pořadí v FDA snížení přináší také odmítnutí osmi proměnných a tolik jako 51,888 rozhodovací pravidla (83 %). Aplikace obrácených žebříčků, jak DRSA-a ANN-založené, vždy vedlo ke zhoršení výkonu.

výsledky pro datovou sadu křivek

atributy pro datovou sadu křivek nejsou podrobně popsány v úložišti UCI ML; proto byly pro větší přehlednost jednoduše označeny formou a1 až a21 a obě rozhodovací třídy odpovídaly vybraným typům vln, typu 0 a typu 1. Dvě hodnocení získaná sekvenční zpětnou eliminací pro klasifikátory DRSA a ANN jsou uvedena v tabulce 6, s podrobnostmi o indukovaných algoritmech a výkonu pro oba systémy, který je také vynesen pro oba typy klasifikačních systémů na obr. 9.

Tabulka 6 zpětné odstranění atributů založených na výkonu klasifikátorů DRSA a ANN pro datovou sadu křivek
obr. 9
číslo9

výkonnost klasifikátorů DRSA a ANN pozorovaná při postupné zpětné eliminaci charakteristických znaků

výkonnost klasifikátorů je porovnávána proti sobě a s referenčním bodem tvořeným prediktivní přesností získanou pro kompletní sadu 21 atributů. Minimální cover rozhodnutí algoritmus indukované klasifikovány pouze 65% s 55 pravidla omezena na 20 omezeními na podporu, aby se rovnala alespoň 3. Všechna pravidla na příkladech algoritmus dosahuje 74% poměr uznání (31,718 pravidla omezena na 58 pro podporu rovné nebo vyšší než 48). ANN s 21 vstupními prvky rozpoznala správně 89 % testovacích vzorků.

pokud je pro systematické snižování vstupů do spojovacích klasifikátorů použito hodnocení funkcí DRSA, lze v počáteční fázi pozorovat určité zvýšení výkonu (viz obr. 10), přesto viditelný trend není striktně monotónní. Stejné pořadí je také použito pro snížení vybraných pravidel ze všech pravidel na příkladech algoritmus v postupech popsaných dříve a v tomto procesu lze pozorovat významné zisky: můžeme snížit 17 z 21 atributů (téměř 81 %) a stále máme zvýšený výkon. Tento, nicméně, přichází bez překvapení, protože oba induktory sdílejí stejné obecné vlastnosti, tedy výsledné zkreslení.

obr. 10
obrázek10

prořezávání vstupů pro klasifikátor ANN ve srovnání s prořezáváním pravidel ze všech pravidel na příkladech rozhodovací algoritmus indukovaný pro kompletní sadu atributů, s redukcí dimenzionality provedenou při sledování hodnocení DRSA

uložení ANN Ranking na zpracování DRSA se provádí opět dvěma způsoby: buď pro postupně se snižující podmnožiny podmíněných atributů jsou indukována nová rozhodovací pravidla (MCDA i FDA), nebo je analyzována sada pravidel z dříve odvozeného algoritmu úplného rozhodování a některá pravidla jsou odmítnuta, pokud odkazují na vyřazené prvky. Podrobnosti o všech výsledných řešeních jsou uvedeny v tabulce 7. Z pozorovaného výkonu můžeme zjistit, že pro všechna pravidla na příkladech je možné odmítnout 13 z 21 podmíněných proměnných (téměř 62 %), přičemž nejen uznání není horší, ale zvýšené.

Tabulka 7 zpětné odstranění podmíněných atributů pomocí Ann Ranking s indukcí nových rozhodovacích algoritmů a se snížením plného rozhodovacího algoritmu dříve odvozeného

když jsou v každé fázi porovnána všechna pravidla na příkladech rozhodovacích algoritmů (nová a snížená FDA), je zřejmé, že jsou ve skutečnosti velmi blízko. I přesto, že počet zúčastněných pravidel není vždy přesně stejný, výsledná přesnost klasifikace je téměř totožná, což naznačuje výběr druhého způsobu, to znamená snížení FDA generované pro kompletní sadu funkcí místo vyvolání nových algoritmů. Vyžaduje podstatně méně úsilí, protože tvrdá část výpočtů je již provedena. Jakmile je zaveden nějaký způsob prořezávání pravidel, jeho provedení by mohlo být méně náročné než indukční proces.

pro srovnání byly také provedeny některé testy pro obrácené hodnocení, s vyřazením nejmenších atributů hodnocení, ale výsledky byly horší ve srovnání s odpovídajícím řešením pro většinu proměnných hodnocení, s rozdíly v závislosti na počtu prvků snížených, často se zvyšující spolu s tím.

všechny provedené experimenty pro stylometrické i vlnové datové sady potvrzují užitečnost navrhované metodiky kombinování obalů pro odhad relevance vlastností použitých vedle jejich zpětné redukce.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.