Ranking cech charakterystycznych w kombinowanych podejściach do wyboru opakowań

eksperymenty przeprowadzone w ramach opisanych badań były realizowane w dwóch etapach. W pierwszym etapie algorytm sequential backward elimination (SBE), zastosowany w modelu owijarki, został użyty do ustalenia rankingu cech charakterystycznych, ujawniając ich znaczenie. Wrapper został skonstruowany dla dwóch typów klasyfikatorów, algorytmów minimal cover decision algorithms (MCDA) wnioskowanych w DRSA i sztucznych sieci neuronowych.

dwa uzyskane rankingi zostały następnie zastosowane w drugim etapie, gdzie przeprowadzono redukcję atrybutów, ponownie dla indukcji reguł i konekcjonistycznych, podczas gdy ich wydajność była obserwowana. Eliminacja zmiennych dla klasyfikatora DRSA na tym etapie została przeprowadzona na dwa sposoby: przez odrzucenie atrybutów i indukcję nowych reguł i algorytmów oraz przez odrzucenie reguł z wcześniej wygenerowanego algorytmu pełnej decyzji (FDA), ze wszystkimi regułami na przykładach, wnioskowanymi dla wszystkich rozważanych funkcji.

procedury zostały zastosowane do dwóch par zbiorów danych. Podstawowym zadaniem klasyfikacji było binarne przypisywanie autorstwa z cechami stylometrycznymi. Dla porównania, testy przeprowadzono również dla zestawu danych przebiegowych o podobnych cechach (ta sama liczba klas, porównywalna liczba próbek i atrybutów). Wyniki dla tego drugiego zbioru danych są podane na końcu tej sekcji.

ustalenie rankingu cech przez SBE

ponieważ klasyfikator DRSA miał być używany jako owijarka z sekwencyjną redukcją wsteczną cech, oznaczało to rozpoczęcie od pełnego zestawu atrybutów i eliminację jednego elementu na raz. Stąd wprowadzenie wszystkich reguł na przykładach w każdym przypadku byłoby niepraktyczne, ponieważ dla 25 cech w algorytmie FDA było 62 383 zasad decyzyjnych. Zamiast tego wnioskowano o minimalnych algorytmach decyzyjnych MCDA, a ich wydajność wykorzystywano do wyboru atrybutu, którego redukcja dawała najlepsze wyniki w porównaniu z innymi na tym samym poziomie. Szczegóły dotyczące wszystkich etapów przedstawiono w tabeli 1, gdzie w prawej kolumnie (i) przedstawiono ustalony ranking cech charakterystycznych DRSA.

Tabela 1 Wsteczna eliminacja atrybutów w oparciu o wyniki klasyfikatorów DRSA

górny wiersz tabeli odpowiada 0. stopniowi redukcji, czyli klasyfikatorowi reguł wywołanemu dla wszystkich 25 badanych atrybutów warunkowych, wymienionych w kolumnie (c). Wygenerowany algorytm minimal cover decision składał się z 30 reguł składowych, które były ograniczone do zaledwie 6, jednocześnie wymagając, aby ich minimalne wsparcie było równe co najmniej 6. Maksymalna dokładność klasyfikacji uzyskana dzięki nałożonemu ograniczeniu wynosiła 76,67 % prawidłowo uznanych próbek testowych. Dokładność klasyfikacji określona w tabeli (i dla wszystkich innych przypadków eksploracji danych z DRSA przedstawionych w niniejszym artykule) odnosi się tylko do przypadków, w których wszystkie reguły dopasowania zostały sklasyfikowane poprawnie. Niejednoznaczne przypadki sprzeczności decyzji lub braku reguł dopasowywania były zawsze traktowane jako nieprawidłowe (co jest raczej surowe, ale ogranicza dodatkowe przetwarzanie potrzebne w przeciwnym razie).

następnie zbudowano 25 nowych klasyfikatorów MCDA, każdy z 24 funkcjami wejściowymi, z jednym atrybutem wyeliminowanym, a ich wydajność przetestowano i porównano. Z tych systemów, ten o zredukowanej funkcji odpowiadającej częstotliwości użycia dla „I” dał najlepszy wynik, więc atrybut ten jest wybierany jako najmniej istotny ze wszystkich kandydatów i jako pierwszy do wyeliminowania, jak podano w kolumnie (i) tabeli.

zbiór 24 pozostałych zmiennych daje podstawę dla następnego etapu redukcji o indeksie równym 1, pokazanym w tabeli 1 w drugim wierszu. Ponownie najlepszy algorytm decyzyjny MCDA składał się z 30 zasad, ale przy poparciu równym lub wyższym niż 2, było 17 zasad z maksymalną klasyfikacją sięgającą 77,78%.

w kolumnie (h) tabeli można zauważyć, że dokładność klasyfikacji stopniowo wzrasta z 76,67% do maksimum 91,11% prawidłowo rozpoznanych próbek, gdy w zestawie wejściowym pozostało tylko 5, 4 lub 3 cechy, a następnie spada do 84,44% dla dwóch atrybutów warunkowych i 61,11% dla jednego atrybutu.

proces eliminacji atrybutów można zinterpretować w ten sposób, że system odrzuca te elementy, które są nieistotne lub zbędne i zachowuje te, które są niezbędne do klasyfikacji, w wyniku czego dokładność klasyfikacji wzrasta lub jest co najmniej na tym samym poziomie, ale dla mniejszej liczby cech. Kolejność eliminowania atrybutów odzwierciedla ich znaczenie. Gdy kolejność ta jest odwrócona, wydajność klasyfikatorów DRSA zmniejsza się natychmiast i nieodwracalnie, co zilustrowano na Fig. 1.

Fig. 1
figurka1

dokładność klasyfikacji DRSA w odniesieniu do liczby cech w sekwencyjnej eliminacji wstecznej z MCDA, w porównaniu z redukcją atrybutów za pomocą odwróconego rankingu

ta sama procedura sekwencyjnej redukcji wstecznej została następnie zastosowana do klasyfikatorów ANN (Tabela 2), zaczynając od budowy sieci dla wszystkich 25 funkcji. Dla tego zestawu średnia dokładność klasyfikacji wynosiła nieco ponad 91 %. Wartość ta jest oczywiście wyższa niż dla podstawowego klasyfikatora DRSA, dla którego wynosiła ona tylko 76,67 %. Należy jednak zauważyć, że niejednoznaczna klasyfikacja systemu opartego na regułach, sprzeczności decyzji lub braku dopasowania reguł, była traktowana jako nieprawidłowa we wszystkich rozpatrywanych przypadkach i wpływała na tę niższą dokładność predykcyjną. Co więcej, generowanie algorytmów decyzyjnych o minimalnym pokryciu nie gwarantuje indukcji najlepszych reguł, o największym potencjale poprawnej klasyfikacji, i jest dość powszechne, że algorytmy decyzyjne skonstruowane z innymi podejściami testują się znacznie lepiej, ale kosztem bardziej złożonych procedur, większych kosztów obliczeniowych i potrzebnego czasu przetwarzania .

Tabela 2 Wsteczna eliminacja atrybutów w oparciu o wyniki klasyfikatorów ANN

dodatnia zmiana współczynnika klasyfikacji lub taka sama wydajność dla mniejszej liczby wejść nie jest jedynym wskaźnikiem istotności atrybutów lub nadmiarowości. Gdy jakaś cecha jest zmniejszona, również wewnętrzna struktura klasyfikatora jest odpowiednio modyfikowana. W przypadku przetwarzania DRSA oznacza to mniej reguł składowych w algorytmie decyzyjnym, podczas gdy w przypadku sztucznej sieci neuronowej jej warstwy zmniejszają się poprzez usunięcie neuronów.

jeśli taka mniejsza sieć klasyfikuje się nie gorzej niż przed redukcją, oznacza to, że znaczenie ostatnio odrzuconych danych wejściowych jest znikome i można je traktować jako zbędne. Spektakl jest zilustrowany na Rys. 2, Podczas gdy rys. 3 pokazuje, co dzieje się z dokładnością klasyfikacji systemu, gdy funkcje wejściowe są zmniejszone podczas podążania za odwróconym rankingiem ANN. Dwa wykresy z fig. 2 i 3 pokazują te same trendy, które są widoczne we wcześniej wykreślonej wydajności klasyfikatorów DRSA na Fig. 1.

Fig. 2
figurka2

dokładność klasyfikacji ANN obserwowana w procesie sekwencyjnej eliminacji wstecznej, w odniesieniu do liczby rozważanych cech, a dla każdej średniej wskazuje się maksymalną i minimalną wydajność

Fig. 3
figurka3

dokładność klasyfikacji ANN w odniesieniu do liczby cech, obserwowana w wstecznym zmniejszaniu wejść podczas podążania za odwróconym rankingiem ANN. Dla każdej średniej wskazuje się maksymalną i minimalną wydajność

kiedy porównamy rankingi DRSA i ANN ze sobą i przeanalizujemy wyniki przypisane do wszystkich atrybutów, możemy zauważyć, że chociaż oba typy klasyfikatorów działają na tych samych zestawach danych, wynikające z tego uporządkowanie zredukowanych cech jest różne, tylko ostatnia pozostała cecha jest taka sama w obu rankingach: częstotliwość użycia dla „nie”. Jest to bezpośredni wynik nieodłącznych cech induktorów, które są przenoszone do rankingów obliczanych z ich pomocą.

ponieważ owijarki są często oskarżane o takie stronniczość, uzyskane rankingi muszą być obserwowane w procesie zmniejszania cech charakterystycznych dla innych systemów klasyfikacji, poprzez łączenie owijarek tego samego i innego typu, w celu oceny ich przydatności za pomocą testów, co zilustrowano w następnej sekcji.

ranking funkcji w ich redukcji

po ogólnej kategoryzacji metod wyboru funkcji ranking należy do filtrów. W prezentowanych badaniach uzyskano dwa rankingi za pomocą owijarek opartych na DRSA i ANN, podane w prawej większości kolumn tabel 1 i 2. Te porządki były następnie używane do odfiltrowania atrybutów warunkowych z oryginalnego zestawu 25, w wstecznej eliminacji zmiennych wejściowych dla nowych klasyfikatorów.

szczegóły zastosowania rankingu ANN do wstecznej redukcji atrybutów w przetwarzaniu DRSA, co skutkuje rozwiązaniem hybrydowym, przedstawiono w tabeli 3. Najpierw odrzucano podzbiory cech o rosnącej kardynalności, a następnie dla pozostałych podzbiorów indukowano nowe algorytmy decyzyjne, z zapewnieniem jedynie minimalnego pokrycia MCDA, a także z wnioskowaniem wszystkich reguł na przykładach.

Tabela 3 Wsteczna eliminacja atrybutów warunkowych za pomocą rankingu ANN z indukcją nowych algorytmów decyzyjnych

ponieważ dokładność klasyfikacji jest zwykle traktowana jako najważniejszy czynnik wskazujący na jakość otrzymanego roztworu, możemy skupić naszą uwagę na dwóch kolumnach (g) W Tabeli 3 lub na wykresie na Fig. 4. Zarówno w przypadku klasyfikatorów MCDA, jak i FDA, istnieje kilka przypadków poprawy lub tej samej wydajności, gdy funkcje są zmniejszone, jednak zysk, rozpatrywany pod względem liczby odrzuconych funkcji, wzrostu dokładności predykcyjnej lub mniejszej liczby reguł decyzyjnych pozostających w algorytmie, nie jest tak wysoki, jak zaobserwowano wcześniej dla prostych owijarek ANN lub MCDA.

Fig. 4
figurka4

dokładność klasyfikacji dla algorytmów decyzyjnych MCDA i FDA wywołanych po wstecznej eliminacji atrybutów na podstawie rankingu ANN, w odniesieniu do liczby cech

zamiast zmniejszać atrybuty warunkowe, a następnie wnioskować nowe algorytmy decyzyjne, co może być bardzo czasochłonne, możemy również wyeliminować te atrybuty, odrzucając reguły z warunkami na nich, ograniczając wszystkie reguły na przykładach algorytmu decyzyjnego indukowanego wcześniej dla wszystkich funkcji . Takie podejście można uznać za wykonanie rankingu zasad decyzyjnych.

Po Pierwsze, do każdej reguły w algorytmie indukowanym przypisywany jest wynik, na podstawie indywidualnych wyników dla wszystkich atrybutów zawartych w części zasadowej. Ze wszystkich tych elementarnych wyników, odpowiadających warunkom składowym, wybiera się najwyższy, wskazując atrybut, który jest postrzegany jako najmniej ważny; w ten sposób pierwszy zostanie wyeliminowany, a ten wynik jest przyznawany regułom decyzyjnym. Następnie wszystkie reguły są uporządkowane według ich wyników, a na każdym etapie redukcji wszystkie reguły z określonym wynikiem są odrzucane, co skutkuje zmniejszeniem algorytmów decyzyjnych.

szczegóły procedury ustalania kolejności decyzji podano w tabeli 4. Dla porównania, są również wymienione wyniki redukcji algorytmu FDA, podczas gdy po odwróconym rankingu ANN, oba wykreślone również na Fig. 5.

Tabela 4 redukcja wszystkich reguł dotyczących algorytmu przykładów (FDA) z wykorzystaniem rankingu funkcji ANN i jego odwrotności

zastosowanie rankingu ANN w redukcji FDA powoduje dość gwałtowny spadek liczby pozostałych zasad decyzyjnych, podczas gdy klasyfikatorzy przewidują z taką samą lub tylko nieznacznie zmniejszoną dokładnością. Odwrócony ranking ANN przynosi znacznie wolniejszą redukcję algorytmu, ale wydajność pogarsza się natychmiast i nieodwracalnie.

Fig. 5
figurka5

redukcja algorytmu FDA podczas śledzenia rankingu ANN i jego odwrotności. Dokładność predykcyjna jest wykreślana w odniesieniu do liczby cech

ponieważ ustalanie rankingu DRSA poprzez sekwencyjną eliminację wsteczną z generowaniem algorytmów decyzji o minimalnym pokryciu jest traktowane jako osobny proces, ranking ten może być również stosowany w procedurze rankingu i redukcji reguł decyzyjnych, ograniczając wszystkie zasady dotyczące algorytmu przykładów, którego wyniki podano w tabeli 5, a wydajność pokazano na Fig. 6.

Tabela 5 Wsteczna eliminacja reguł decyzyjnych ze wszystkich reguł na przykładach (FDA) algorytmu indukowanego dla wszystkich cech, z następującym rankingiem atrybutów DRSA i jego odwrotnością

tendencje widoczne w predykcyjnej dokładności algorytmów redukcji decyzji podczas śledzenia rankingu DRSA i jego odwrotności bezpośrednio przypominają te obserwowane wcześniej w trybie owijania, gdy ranking został ustanowiony. Procedury te pozwalają odfiltrować te reguły z algorytmu FDA, który zawiera warunki dotyczące nieistotnych atrybutów i algorytmów zwrotnych o znacznie zmniejszonej liczbie reguł decyzyjnych przy zachowaniu lub nawet zwiększeniu dokładności klasyfikacji.

Fig. 6
figurka6

redukcja wszystkich reguł na przykładach algorytmu decyzyjnego przy zachowaniu rankingu funkcji DRSA i jego odwrotności

kiedy Ranking DRSA został zastosowany w redukcji cech wejściowych do sztucznej sieci neuronowej, zaowocowało to kolejnym rozwiązaniem hybrydowym. Na każdym etapie eliminacji pominięto jedną cechę i badano jej wpływ na wydajność sieci, jak przedstawiono na Fig. 7. Gdy odwrócony ranking jest wykorzystywany (rys. 8), porównanie tych dwóch wykresów ujawnia bardzo bliskie podobieństwo do tego pokazanego na Fig. 1, ilustrujące wydajność owijarki DRSA wykorzystującej SBE.

Fig. 7
figurka7

redukcja cech charakterystycznych dla klasyfikatora ANN podczas podążania za rankingiem DRSA. Dokładność predykcyjna jest wykreślana w odniesieniu do liczby funkcji, a dla każdej średniej wskazuje się maksymalną i minimalną wydajność

Fig. 8
figurka8

redukcja cech charakterystycznych dla klasyfikatora ANN podczas podążania za odwróconym rankingiem DRSA. Dokładność predykcyjna jest wykreślana w odniesieniu do liczby funkcji, a dla każdej średniej wskazuje się maksymalną i minimalną wydajność

spośród wszystkich przetestowanych kombinacji owijarek najlepszą wydajność wykazano dla klasyfikatorów ANN stosujących Ranking DRSA w wstecznym eliminowaniu cech (rys. 7). Dobre wyniki uzyskano również w redukcji wszystkich reguł na przykładach algorytmu generowanego dla wszystkich funkcji, przy jednoczesnym zachowaniu rankingu DRSA (Tabela 5; rys. 6). W tym przypadku można to jednak wyjaśnić błędem owijania, gdy dwa systemy tego samego typu, mające te same cechy, są połączone. Tego samego nie można stwierdzić dla pierwszego przypadku, ponieważ różnice między klasyfikatorami DRSA i ANN są wyraźnie pokazane w obserwowanym procesie sekwencyjnej wstecznej eliminacji cech, co skutkuje dwoma wyraźnie różniącymi się rankingami.

wykorzystanie rankingu ANN w redukcji atrybutów wstecznych, a następnie wprowadzenie nowych reguł i algorytmów dla wszystkich reguł na przykładach, umożliwia odrzucenie ośmiu zmiennych (32%), zanim wydajność zacznie spadać (Tabela 3; rys. 4). Ranking ANN w redukcji FDA przynosi również odrzucenie ośmiu zmiennych i aż 51 888 zasad decyzyjnych (83 %). Zastosowanie odwróconych rankingów, zarówno DRSA, jak i ANN, zawsze powodowało pogorszenie wydajności.

wyniki dla zestawu danych przebiegów

atrybuty zestawu danych przebiegów nie są szczegółowo opisane w repozytorium UCI ML; dlatego dla wygody zostały one po prostu oznaczone od A1 do a21, a dwie klasy decyzyjne odpowiadały wybranym typom fal, typowi 0 i typowi 1. Dwa rankingi uzyskane przez sekwencyjną eliminację wsteczną dla klasyfikatorów DRSA i ANN podano w tabeli 6, ze szczegółami indukowanych algorytmów i wydajności dla obu systemów, co jest również wykreślone dla obu typów systemów klasyfikacji na Fig. 9.

Tabela 6 Wsteczna eliminacja atrybutów w oparciu o wydajność klasyfikatorów DRSA i ANN dla zbioru danych przebiegów
Fig. 9
figurka9

wydajność klasyfikatorów DRSA i ANN obserwowana w sekwencyjnej eliminacji wstecznej cech charakterystycznych

wydajność klasyfikatorów jest porównywana względem siebie i do punktu odniesienia utworzonego przez dokładności predykcyjne uzyskane dla pełnego zestawu 21 atrybutów. Algorytm podejmowania decyzji o minimalnym pokryciu sklasyfikował tylko 65% Z 55 regułami ograniczonymi do 20 przez ograniczenia wsparcia równe co najmniej 3. Wszystkie reguły na przykładach algorytm osiąga 74% współczynnik rozpoznawania (31 718 reguł ograniczonych do 58 dla wsparcia równego lub wyższego niż 48). ANN z 21 cech wejściowych rozpoznanych poprawnie 89 % próbek testowych.

gdy Ranking cech DRSA jest stosowany do systematycznej redukcji wejść do klasyfikatorów konekcjonistycznych, w początkowej fazie można zaobserwować pewien wzrost wydajności(patrz Rys. 10), jednak widoczny trend nie jest ściśle monotoniczny. Ten sam ranking jest również stosowany do redukcji wybranych reguł ze wszystkich reguł na przykładach algorytmu w opisanych wcześniej procedurach i w tym procesie można zaobserwować znaczne zyski: możemy zmniejszyć 17 z 21 atrybutów (blisko 81 %) i nadal mamy zwiększoną wydajność. To jednak nie dziwi, ponieważ oba induktory mają te same ogólne cechy, stąd wynikające z nich odchylenie.

Fig. 10
figurka10

przycinanie danych wejściowych dla klasyfikatora ANN w porównaniu z przycinaniem reguł ze wszystkich reguł na przykładach algorytm decyzyjny indukowany dla pełnego zestawu atrybutów, Z Redukcją wymiarowości wykonywaną po rankingu DRSA

nakładanie rankingu ANN na przetwarzanie DRSA odbywa się ponownie na dwa sposoby: albo Dla stopniowo malejących podzbiorów atrybutów warunkowych indukowane są nowe reguły decyzyjne (zarówno MCDA, jak i FDA), albo analizowany jest zbiór reguł z wcześniej wywnioskowanego pełnego algorytmu decyzyjnego, a niektóre reguły odrzucane są, gdy odnoszą się do odrzuconych cech. Szczegóły dotyczące wszystkich otrzymanych roztworów podano w tabeli 7. Z obserwowanej wydajności możemy wykryć, że dla wszystkich reguł na przykładach można odrzucić 13 z 21 zmiennych warunkowych (prawie 62 %), podczas gdy nie tylko rozpoznawanie nie jest gorsze, ale zwiększone.

Tabela 7 Wsteczna eliminacja atrybutów warunkowych za pomocą rankingu ANN z indukcją nowych algorytmów decyzyjnych i redukcją pełnego algorytmu decyzyjnego wcześniej wywnioskowanego

gdy na każdym etapie porównywane są wszystkie zasady dotyczące przykładowych algorytmów decyzyjnych (nowa i zredukowana FDA), okazuje się, że są one w rzeczywistości bardzo zbliżone. Mimo że liczba reguł nie zawsze jest taka sama, wynikająca z tego dokładność klasyfikacji jest niemal identyczna, co sugeruje wybór drugiego sposobu, tj. redukcję FDA generowanego dla pełnego zestawu funkcji zamiast indukowania nowych algorytmów. Wymaga to znacznie mniej wysiłku, ponieważ trudna część obliczeń jest już wykonywana. Po ustaleniu pewnego rodzaju metody przycinania reguł, jej wykonanie może być mniej wymagające niż proces indukcji.

dla porównania przeprowadzono również testy odwróconych rankingów, odrzucając najmniejsze atrybuty rankingu, ale wyniki były gorsze w porównaniu z odpowiednim rozwiązaniem dla większości zmiennych rankingowych, z różnicami zależnymi od liczby elementów zmniejszonych, często rosnących wraz z nim.

wszystkie przeprowadzone eksperymenty, zarówno dla zestawów danych stylometrycznych, jak i falowych, potwierdzają przydatność proponowanej metodologii łączenia owijarek do szacowania istotności cech, stosowanej następnie ich redukcji wstecznej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.