選択への複合ラッパーアプローチにおける特徴のランキング

記載された研究内で行われた実験は、二つの段階で実行されました。 第一段階では,ラッパーモデルに適用されたシーケンシャル後方排除(SBE)アルゴリズムを用いて特徴的特徴のランキングを確立し,それらの関連性を明らかにした。 DRSAで推論される最小被覆決定アルゴリズム(MCDA)と人工ニューラルネットワークの二つのタイプの分類器に対するラッパーを構築した。

得られた二つのランキングは、次に第二段階で採用され、属性の削減が行われ、ルールおよびコネクショニスト誘導者に対して再び行われたが、その性能 この段階でのDRSA分類器の変数の除去は、属性を破棄して新しいルールとアルゴリズムを誘導することによって、以前に生成された完全決定アルゴリズム(FDA)からルールを拒否することによって、すべての特徴について推論された例に関するすべてのルールを考慮して実行された。

この手順は二組のデータセットに適用されました。 主な分類タスクは、文体の特徴を持つバイナリの著者の帰属でした。 比較のために、同様の特性(同じ数のクラス、同等の数のサンプルおよび属性)を持つ波形データセットについてもテストを実行しました。 この2番目のデータセットの結果は、このセクションの最後に示されています。

SBEによる特徴のランク付けの確立

DRSA分類子は、特徴の順次後方削減を伴うラッパーとして使用されることになっていたので、属性の完全なセッ したがって、FDAアルゴリズムの25の特徴については、62,383の構成決定規則があったため、それぞれの場合の例に関するすべての規則の誘導は実用的ではない。 代わりに、最小限のカバー決定アルゴリズムMCDAが推論され、その性能が属性を選択するために使用され、同じレベルの他のものと比較したときに最良の結果が得られた。 すべてのステップの詳細を表1に示し、右端の列(i)には、特性フィーチャの確立されたDRSAランキングが示されています。

表1DRSA分類子のパフォーマンスに基づく属性の後方削除

表の一番上の行は、0番目の削減段階、つまり、列(c)にリストされている、調査されたすべての25の条件付き属性に対して誘導されるルール分類器に対応 生成された最小カバー決定アルゴリズムは30の構成ルールで構成されていましたが、最小サポートは少なくとも6に等しいことを要求しながら、わずか6に制限されていました。 課された制約によって得られた最大分類精度は、正しく認識された試験サンプルの76.67%であった。 表で指定された分類精度(およびこのホワイトペーパーで示したDRSAを使用したデータマイニングの他のすべてのケース)は、すべての一致ルールが正しく分類された場合のみを指します。 矛盾する決定や一致するルールがないというあいまいなケースは、常に不正確として扱われました(これはかなり厳密ですが、それ以外の場合に必要な追

次に、25個の新しいMCDA分類器が構築され、それぞれが24個の入力特徴を持ち、一つの属性が排除され、その性能がテストされ、比較されました。 これらのシステムのうち、”and”の使用頻度に対応する縮小された特徴を持つものが最良の結果を与えたので、この属性は、テーブルの列(i)に与えられているように、すべての候補の中で最も関連性が低く、最初に排除されるものとして選択される。

残りの24個の変数のセットは、インデックスが1である次の削減段階のベースを与えます。 また、最高のMCDA決定アルゴリズムは30のルールで構成されていましたが、サポートが2以上の場合、17のルールがあり、最大分類は77.78%に達しました。

表(h)の列では、入力セットに5、4、または3つの特徴が残っている場合、分類精度は76.67%から91.11%まで徐々に増加し、二つの条件付き属性では84.44%、単一の属性では61.11%に減少することが観察されている。

属性除去のプロセスは、このように解釈することができ、システムは無関係または冗長であるこれらの要素を破棄し、分類に不可欠なこれらの要素を保持し、その結果、分類精度は増加するか、少なくとも同じレベルであるが、より少ない特徴に対してである。 属性が削除される順序は、その重要性を反映しています。 この順序が逆になると、DRSA分類器の性能は直ちに回復不能に低下し、これは図1 0に示されている。 1.

図1.1.1. 1
図1

逆のランキングを使用して属性の削減と比較して、MCDAと順次後方除去内の特徴の数に関連したDRSA分類精度

次に、同じ順次後方縮小手順をANN分類器に適用し(表2)、25個の特徴すべてのネットワークの構築から始めました。 このセットでは、平均分類精度は91%をわずかに上回っていました。 この値は、ベースのDRSA分類器の場合よりも明らかに高く、76.67%しかありませんでした。 しかし、ルールベースのシステムのあいまいな分類、矛盾する決定、またはルールの一致がないことは、すべての考慮されたケースで間違っていると扱われ、こ さらに、最小限のカバー決定アルゴリズムの生成は、正しい分類の可能性が最も高い最良のルールの誘導を保証するものではなく、他のアプローチで構築された決定アルゴリズムは、より複雑な手順、より多くの計算コスト、および必要な処理時間を犠牲にして、はるかに優れたテストを行うことは非常に一般的である。

表2ANN分類器の性能に基づく属性の後方除去

属性の関連性や冗長性を示す唯一の指標は、分類比の正の変化、または少ない入力に対して同じパフォーマンスであるだけではありません。 いくつかの特徴が縮小されると、それに応じて分類器の内部構造も変更される。 DRSA処理では、決定アルゴリズムの構成ルールが少なくなりますが、人工ニューラルネットワークでは、ニューロンの除去によってその層が小さくなります。

このような小さなネットワークが削減前よりも悪くない分類をした場合、最近破棄された入力の関連性は無視できることを意味し、冗長として扱 その性能を図1 0に示す。 図2に示すように、図2に示すように 図3は、反転したANNランキングに従っている間に入力フィーチャが減少したときにシステムの分類精度に何が起こるかを示しています。 図からの二つのグラフ。 図2および図3は、図2のDRSA分類器の以前にプロットされた性能で目に見えるのと同じ傾向を示しています。 1.

図1.1.1. 2
図2

ANN分類精度は、考慮された特徴の数に関連して、順次後方除去プロセスで観察され、各平均について、最大および最小の性能が示されている

図1.1.1. 3
図3

特徴の数に関連したANN分類精度は、反転したANNランキングに従っている間に入力の後方減少で観察されます。 各平均のために、示された最高および最低の性能があります

DRSAとANNのランキングを互いに比較し、すべての属性に割り当てられたスコアを分析すると、両方のタイプの分類器が同じデータセットで動作していても、縮小された特徴の順序が異なり、最後に残っている特徴だけが両方のランキングで同じであることがわかります。”not”の使用頻度。 これは、彼らの助けを借りて計算されたランキングに転送される誘導器の固有の特性の直接の結果です。

ラッパーはしばしばこのような偏見で非難されるため、得られたランキングは、同じ種類と異なる種類のラッパーを組み合わせて、次のセクションで説明するテストを通じてその有用性を評価することにより、他の分類システムの特徴を縮小する過程で観察する必要がある。

減少に特徴のランキングを採用

特徴選択アプローチの一般的な分類に続いて、ランキングはフィルタに属します。 提示された研究では、表1と表2の右端の列に与えられたDRSAベースのラッパーとANNベースのラッパーを使用して二つのランキングが得られました。 次に、これらの順序付けを使用して、元の25個のセットから条件付き属性を除外し、新しい分類子の入力変数を後方に排除しました。

ハイブリッドソリューションをもたらすDRSA処理における属性の後方縮小へのANNランキングの適用の詳細を表3に示します。 まず、基数が増加する特徴の部分集合が拒否され、残りの部分集合については、最小限のカバー MCDAだけを提供し、また例FDAに関するすべての規則を推論することで、新しい決定アルゴリズムが誘導された。

表3新しい決定アルゴリズムの誘導によるANNランク付けを使用した条件付き属性の後方排除

分類精度は通常、得られた解の品質を示す最も重要な要因として扱われるため、表3の2つの(g)列、または図1のグラフに注目することができます。 4. MCDA分類器とFDA分類器の両方で、特徴が減少したときに改善された、または同じパフォーマンスのいくつかのケースがありますが、拒否された特徴の数、予測精度の増加、またはアルゴリズムに残っている決定ルールの数の減少のいずれかの観点から考慮されるゲインは、単純なANNまたはMCDAラッパーで以前に観察されたほど高くはありません。

図1.1.1. 4
図4

機能の数に関連したANNランキングに基づいて、後方属性除去後に誘導されるMCDAおよびFDA決定アルゴリズムの分類精度

条件付き属性を減らし、非常に時間がかかる新しい決定アルゴリズムを推論する代わりに、条件付きルールを破棄し、すべての特徴に対して以前に誘導された決定アルゴリズムの例に関するすべてのルールを制限することによって、これらの属性を排除することもできます。 このようなアプローチは、決定ルールの順位付けの実行と考えることができます。

まず、誘導されたアルゴリズムの各ルールに、ルールの前提部分に含まれるすべての属性の個々のスコアに基づいてスコアが割り当てられます。 これらすべての基本スコアから、構成条件に対応して、最も重要でないと認識される属性を示す最も高いスコアが選択され、したがって、最初に排除され、このスコアが決定規則に与えられる。 次に、すべてのルールがスコアによって順序付けされ、削減の各ステップで、特定のスコアを持つすべてのルールが拒否され、決定アルゴリズムが削減さ

この決定ルール順位付け手順の詳細を表4に示します。 比較のために、逆ANNランキングに続いている間にFDAアルゴリズム削減の結果も記載されており、両方とも図にもプロットされています。 5.

表4ANN機能ランキングとその逆を使用した例アルゴリズム(FDA)に関するすべてのルールの削減

FDAの削減にANNランキングを適用すると、残りの決定ルールの数がかなり急激に減少し、分類器は同じ精度またはわずかに減少した精度で予測します。 逆ANNランキングは、はるかに遅いアルゴリズムの減少をもたらしますが、パフォーマンスは即座に回復不能に悪化します。

図1.1.1. 5
図5

アンランキングとその逆に従っている間、FDAアルゴリズムの減少。 予測精度は、フィーチャの数に関連してプロットされます

最小カバー決定アルゴリズムの生成による順次後方排除によるDRSAランキングの確立は別のプロセスとして扱われるため、このランキングは決定ルールのランキングとリダクションの手順でも使用でき、例アルゴリズムに関するすべてのルールを制限することができ、その結果は表5に与えられ、図に示す性能である。 6.

表5例に関するすべてのルールからの決定ルールの後方排除(FDA)アルゴリズムは、属性のDRSAランキングとその逆に従うことで、すべての特徴について誘導

DRSAランキングに従っている間に減少した決定アルゴリズムの予測精度に見える傾向とその逆は、ランキングが確立されたときにラッパーモードで以前に観察されたこれらを直接思い出させる。 この手順は、無関係な属性に関する条件を含むFDAアルゴリズムからこれらのルールを除外し、分類の精度を維持または向上させながら、決定ルールの数を大幅に減少させたアルゴリズムを返すことを可能にする。

図1.1.1. 6
図6

DRSA機能ランキングとその逆に従っている間の例決定アルゴリズムに関するすべてのルールの削減

DRSAランキングを人工ニューラルネットワークへの入力特性の低減に用いたとき,それはさらに別のハイブリッド解をもたらした。 各除去段階では、単一の特徴が無視され、図にプロットされているように、ネットワーク性能に対するそれの影響が研究された。 7. 逆のランキングが悪用された場合(図。 図8)に示すように、これら二つのグラフの比較は、図に表示されたものと非常に類似していることを明らかにする。 図1に、SBEを用いたDRSAラッパーの性能を示す。

図1.1.1. 7
図7

DRSAのランキングに続いている間ANNの分類器のための特徴の減少。 予測精度はフィーチャの数に関連してプロットされ、平均ごとに最大および最小のパフォーマンスが示されます

図1.1.1. 8
図8

逆DRSAランキングに従っている間ANN分類器のための特徴の減少。 予測精度はフィーチャの数に関連してプロットされ、平均ごとに最大および最小のパフォーマンスが示されます

すべてのテストされたラッパーの組み合わせから、特徴の後方排除におけるDRSAランク付けを採用したANN分類器に対して最高の性能が表示された(図。 7). DRSAランキングに従う一方で、すべての特徴について生成された例アルゴリズムに関するすべてのルールの削減においても良好な結果が得られた(表5;図 6). しかし、この場合、同じ特性を共有する同じタイプの二つのシステムが組み合わされたときのラッパーバイアスによって説明することができます。 DRSA分類器とANN分類器の違いは,特徴の逐次的な後方除去の観察された過程で明確に示され,二つのはっきりと異なるランキングをもたらすので,前者の場合についても同じことを述べることはできない。

下位属性削減でANNランキングを使用し、例に関するすべてのルールに対して新しいルールとアルゴリズムを誘導することで、パフォーマンスが低下し始める前に8つの変数(32%)を破棄することができます(表3;図2)。 4). 51,888件(83%) DRSAベースとANNベースの両方の逆のランキングを適用すると、常にパフォーマンスが悪化しました。

波形データセットの結果

波形データセットの属性は、UCI MLリポジトリでは詳細に説明されていません; したがって、便宜のために、それらは単にフォームa1〜a21とラベル付けされ、2つの決定クラスは選択された波タイプ、タイプ0およびタイプ1に対応 DRSA分類器とANN分類器の順次後方除去によって得られた二つのランキングを表6に示し、両方のシステムの誘導アルゴリズムと性能の詳細を示します。 9.

表6波形データセットのDRSA分類器およびANN分類器の性能に基づく属性の後方除去
図1.1.1. 9
図9

特徴的な特徴の順次後方除去で観察されたDRSAおよびANN分類器の性能

分類器の性能は、互いに比較され、21個の属性の完全なセットに対して得られた予測精度によって構成される基準点と比較される。 最小限のカバー決定アルゴリズムは、65%のみを分類し、55のルールは20に制限され、少なくとも3に等しくなるようにサポートの制約によって制限されます。 例アルゴリズム上のすべてのルールは、74%の認識率を達成します(31,718ルールは、サポートのために58以上の48に制約されます)。 21の入力機能を持つANNは、テストサンプルの89%を正しく認識しました。

コネクショニスト分類器への入力を体系的に削減するために特徴のDRSAランキングを適用すると、初期段階では性能の向上が観察されます(図参照)。 10)、まだ目に見える傾向は厳密に単調ではありません。 同じランキングはまた、前に説明した手順で例のアルゴリズム上のすべてのルールから選択されたルールの削減のために採用され、このプロセスで有意な利益が観察されることができます:私たちは17のうち21の属性(81%に近い)を減らすことができ、まだパフォーマンスが向上しています。 しかし、これは、両方の誘導子が同じ一般的な特性を共有するため、結果として生じるバイアスであるため、驚くことはありません。

図1.1.1. 10
図10

ANN分類器の入力のプルーニングは、DRSAランキングに従って次元削減が実行され、属性の完全なセットに対して誘導された例決定アルゴリズムのすべてのルールからのルールのプルーニングと比較した。

DRSA処理にANNランキングを課すことは、次の二つの方法で再び実行されます: 条件付き属性の徐々に減少する部分集合に対して,新しい決定規則が誘導されるか(MCDAとFDAの両方),または以前に推論された完全決定アルゴリズムからの規則の集合を解析し,破棄された特徴を参照するときにいくつかの規則が拒否される。 得られたすべての解の詳細を表7に示す。 観察されたパフォーマンスから、例に関するすべてのルールについて、認識が悪化しないだけでなく、増加する一方で、21の条件変数のうち13個(ほぼ62%)を

表7新しい決定アルゴリズムの誘導および以前に推論された完全な決定アルゴリズムの削減によるANNランク付けを使用した条件付き属性の後方

例の決定アルゴリズムに関するすべてのルール(新しいものとFDAの削減)が各段階で比較されると、実際には非常に近いことが明らかになります。 関係するルールの数は必ずしも正確に同じではありませんが、結果として得られる分類精度はほぼ同じであり、新しいアルゴリズムを誘導するのではなく、機能の完全なセットに対して生成されるFDAの削減である第二の方法を選択することを示唆しています。 計算の難しい部分がすでに実行されているため、必要な労力は大幅に少なくなります。 ルールの剪定のためのある種の方法が確立されると、その実行は誘導プロセスよりも要求が少なくなる可能性があります。

比較のために、逆のランキングのいくつかのテストも実行され、最も低いランキング属性が破棄されましたが、ほとんどのランキング変数の対応する解と比較すると結果は悪化し、要素の数に応じた差が減少し、それに伴って増加することがよくありました。

文体データセットと波形データセットの両方について実施されたすべての実験は、次に使用される特徴の関連性を推定するためのラッパーを組み合わせる

コメントを残す

メールアドレスが公開されることはありません。