Les expériences menées dans le cadre de la recherche décrite ont été exécutées en deux étapes. Dans la première étape, l’algorithme d’élimination séquentielle vers l’arrière (SBE), appliqué dans le modèle wrapper, a été utilisé pour établir un classement des caractéristiques, révélant leur pertinence. Le wrapper a été construit pour deux types de classificateurs, les algorithmes de décision de couverture minimale (MCDA) inférés dans DRSA et les réseaux de neurones artificiels.
Les deux classements obtenus ont ensuite été utilisés dans la deuxième étape, où la réduction des attributs a été effectuée, encore une fois pour les inducteurs de règle et de connexionnisme, tandis que leur performance a été observée. L’élimination des variables pour le classificateur DRSA à ce stade a été exécutée de deux manières: en rejetant les attributs et en induisant de nouvelles règles et algorithmes, et en rejetant les règles de l’algorithme de décision complète (FDA) généré précédemment, avec toutes les règles sur les exemples, déduites pour toutes les fonctionnalités considérées.
Les procédures ont été appliquées à deux paires d’ensembles de données. La tâche de classification principale était l’attribution de paternité binaire avec des caractéristiques stylométriques. Pour des raisons de comparaison, les tests ont également été exécutés pour un ensemble de données de forme d’onde présentant des caractéristiques similaires (le même nombre de classes, un nombre d’échantillons et d’attributs comparables). Les résultats de ce deuxième ensemble de données sont donnés à la fin de cette section.
Établir le classement des entités par SBE
Étant donné que le classificateur DRSA devait être utilisé comme un wrapper avec une réduction séquentielle des entités, cela signifiait commencer par l’ensemble complet des attributs et l’élimination d’un élément à la fois. Par conséquent, l’induction de toutes les règles sur les exemples dans chaque cas ne serait pas pratique car pour 25 fonctionnalités de l’algorithme de la FDA, il y avait 62 383 règles de décision constitutives. Au lieu de cela, des algorithmes de décision de couverture minimale MCDA ont été déduits et leurs performances ont été utilisées pour sélectionner un attribut, dont la réduction a donné les meilleurs résultats par rapport à d’autres au même niveau. Les détails de toutes les étapes sont énumérés dans le tableau 1, où la colonne la plus à droite (i) montre le classement établi par le DRSA des caractéristiques.
La ligne supérieure du tableau correspond à la 0ème étape de réduction, c’est-à-dire le classificateur de règles induit pour les 25 attributs conditionnels étudiés, répertoriés dans la colonne (c). L’algorithme de décision de couverture minimale généré consistait en 30 règles constitutives, qui étaient limitées à seulement 6 tout en exigeant que leur support minimal soit égal à au moins 6. La précision maximale de classification obtenue par la contrainte imposée était de 76,67 % des échantillons d’essai correctement reconnus. La précision de classification spécifiée dans le tableau (et pour tous les autres cas d’exploration de données avec DRSA présentés dans cet article) ne concerne que les cas où toutes les règles de correspondance sont classées correctement. Les cas ambigus de décisions contradictoires ou d’absence de règles de correspondance ont toujours été traités comme incorrects (ce qui est plutôt strict mais limite les traitements supplémentaires nécessaires autrement).
Ensuite, 25 nouveaux classificateurs MCDA ont été construits, chacun avec 24 caractéristiques d’entrée, avec un attribut éliminé, et leurs performances testées et comparées. Parmi ces systèmes, celui avec la caractéristique réduite correspondant à la fréquence d’utilisation de « et » a donné le meilleur résultat, de sorte que cet attribut est sélectionné comme le moins pertinent de tous les candidats et le premier à être éliminé, comme indiqué dans la colonne (i) du tableau.
L’ensemble des 24 variables restantes donne une base pour l’étape de réduction suivante avec un indice égal à 1, indiqué dans le tableau 1 de la deuxième ligne. Encore une fois, le meilleur algorithme de décision MCDA consistait en 30 règles, mais avec un support égal ou supérieur à 2, il y avait 17 règles avec une classification maximale atteignant 77,78%.
On peut observer dans la colonne (h) du tableau que la précision de la classification augmente progressivement de 76,67% jusqu’au maximum de 91,11% d’échantillons correctement reconnus lorsqu’il ne reste que 5, 4 ou 3 entités dans l’ensemble d’entrée, puis diminue jusqu’à 84,44% pour deux attributs conditionnels et 61,11% pour un seul attribut.
Le processus d’élimination des attributs peut être interprété de telle manière que le système rejette ces éléments non pertinents ou redondants et conserve ceux qui sont essentiels à la classification, de sorte que la précision de la classification augmente ou est au moins au même niveau, mais pour moins de caractéristiques. L’ordre dans lequel les attributs sont éliminés reflète leur importance. Lorsque cet ordre est inversé, les performances des classificateurs DRSA diminuent immédiatement et irrémédiablement, ce qui est illustré à la Fig. 1.
La même procédure de réduction séquentielle vers l’arrière a ensuite été appliquée aux classificateurs ANN (tableau 2), en commençant par la construction d’un réseau pour les 25 entités. Pour cet ensemble, la précision moyenne de la classification était juste au-dessus de 91%. Cette valeur est évidemment plus élevée que pour le classificateur DRSA de base, pour lequel elle n’était que de 76,67%. Cependant, il convient de noter que la classification ambiguë du système fondé sur des règles, consistant à contredire les décisions ou à ne pas faire correspondre les règles, a été considérée comme incorrecte dans tous les cas considérés et a influencé cette précision prédictive inférieure. De plus, la génération d’algorithmes de décision à couverture minimale ne garantit pas l’induction des meilleures règles, avec le plus grand potentiel de classification correcte, et il est assez courant que les algorithmes de décision construits avec d’autres approches testent nettement mieux, mais au prix de procédures plus complexes, de coûts de calcul plus importants et de temps de traitement requis.
Le changement positif du ratio de classification, ou la même performance pour moins d’entrées n’est pas le seul indicateur de la pertinence ou de la redondance des attributs. Lorsque certaines caractéristiques sont réduites, la structure interne du classificateur est également modifiée en conséquence. Pour le traitement DRSA, cela signifie moins de règles constitutives dans un algorithme de décision, tandis que pour un réseau de neurones artificiels, ses couches se réduisent en supprimant les neurones.
Si un tel réseau plus petit ne se classe pas pire qu’avant la réduction, cela signifie que la pertinence de l’entrée récemment rejetée est négligeable et qu’elle peut être traitée comme redondante. Les performances sont illustrées à la Fig. 2, tandis que Fig. 3 montre ce qu’il advient de la précision de classification du système lorsque les caractéristiques d’entrée sont réduites tout en suivant le classement ANN inversé. Les deux graphiques des Fig. 2 et 3 montrent les mêmes tendances qui sont visibles dans les performances précédemment tracées des classificateurs DRSA à la Fig. 1.
Lorsque nous comparons les classements DRSA et ANN les uns aux autres et analysons les scores attribués à tous les attributs, nous pouvons voir que même si les deux types de classificateurs fonctionnent sur les mêmes ensembles de données, les ordres résultants des fonctionnalités réduites sont différents, seule la dernière caractéristique restante est la même dans les deux classements: la fréquence d’utilisation pour « non ». Ceci est un résultat direct des caractéristiques inhérentes aux inducteurs qui sont transférés dans les classements calculés avec leur aide.
Comme les emballages sont souvent accusés d’un tel biais, les classements obtenus doivent être observés dans le processus de réduction des caractéristiques pour d’autres systèmes de classification, en combinant des emballages du même type et différents, pour évaluer leur utilité par des tests, ce qui est illustré dans la section suivante.
Utilisant le classement des entités dans leur réduction
Suivant la catégorisation générale des approches de sélection des entités, le classement appartient aux filtres. Dans la recherche présentée, deux classements ont été obtenus en utilisant des wrappers basés sur DRSA et ANN, donnés dans les colonnes les plus à droite des tableaux 1 et 2. Ces ordres ont ensuite été utilisés pour filtrer les attributs conditionnels de l’ensemble original de 25, en éliminant en arrière les variables d’entrée pour les nouveaux classificateurs.
Les détails de l’application du classement ANN à la réduction en arrière des attributs dans le traitement DRSA, qui aboutit à une solution hybride, sont présentés dans le tableau 3. Tout d’abord, des sous-ensembles de fonctionnalités avec des cardinalités croissantes ont été rejetés, puis pour les sous-ensembles restants, de nouveaux algorithmes de décision ont été induits, en fournissant juste une couverture minimale MCDA, et également en déduisant toutes les règles sur les exemples FDA.
Étant donné que la précision de la classification est généralement considérée comme le facteur le plus important indiquant la qualité de la solution obtenue, nous pouvons concentrer notre attention sur deux colonnes (g) du tableau 3, ou un graphique de la Fig. 4. Pour les classificateurs MCDA et FDA, il existe plusieurs cas d’amélioration ou de même performance lorsque les caractéristiques sont réduites, mais le gain, considéré en termes soit d’un nombre de caractéristiques rejetées, soit d’une augmentation de la précision prédictive, soit d’un nombre inférieur de règles de décision restant dans l’algorithme, n’est pas aussi élevé qu’il a été observé précédemment pour de simples wrappers ANN ou MCDA.
Au lieu de réduire les attributs conditionnels et d’en déduire de nouveaux algorithmes de décision, ce qui peut prendre beaucoup de temps, nous pouvons également éliminer ces attributs en supprimant les règles avec des conditions, limitant toutes les règles sur les exemples algorithme de décision induit précédemment pour toutes les fonctionnalités. Une telle approche peut être considérée comme l’exécution d’un classement pour les règles de décision.
Premièrement, à chaque règle de l’algorithme induit, un score est attribué, basé sur des scores individuels pour tous les attributs inclus dans la partie prémisse de la règle. Parmi tous ces scores élémentaires, correspondant à des conditions constitutives, le plus élevé est choisi, indiquant l’attribut perçu comme le moins important; ainsi, le premier à être éliminé, et ce score est donné à la règle de décision. Ensuite, toutes les règles sont ordonnées par leurs scores, et à chaque étape de réduction, toutes les règles avec un certain score sont rejetées, ce qui entraîne une réduction des algorithmes de décision.
Les détails de cette procédure de classement des règles de décision sont donnés dans le tableau 4. À titre de comparaison, il existe également des résultats listés de la réduction de l’algorithme FDA tout en suivant le classement ANN inversé, tous deux tracés également sur la Fig. 5.
L’application du classement ANN dans la réduction de la FDA entraîne une diminution assez forte du nombre de règles de décision restantes, tandis que les classificateurs prédisent avec la même précision ou une précision légèrement réduite. Le classement ANN inversé entraîne une réduction beaucoup plus lente de l’algorithme, mais les performances s’aggravent instantanément et irrémédiablement.
Comme l’établissement du classement DRSA par élimination séquentielle en arrière avec génération d’algorithmes de décision de couverture minimale est traité comme un processus séparé, ce classement peut également être utilisé dans la procédure de classement et de réduction des règles de décision, limitant toutes les règles sur les exemples algorithme, dont les résultats sont donnés dans le tableau 5 et les performances montrées à la Fig. 6.
Les tendances visibles en précision prédictive pour les algorithmes de décision réduits en suivant le classement DRSA et son inverse rappellent directement celles observées précédemment en mode wrapper lors de l’établissement du classement. Les procédures permettent de filtrer ces règles de l’algorithme FDA qui contiennent des conditions sur des attributs non pertinents et des algorithmes de retour avec un nombre considérablement réduit de règles de décision tout en maintenant ou même en augmentant la précision de la classification.
Lorsque le classement DRSA a été utilisé pour réduire les caractéristiques d’entrée du réseau de neurones artificiels, il en a résulté une autre solution hybride. À chaque étape d’élimination, une seule caractéristique a été ignorée et son influence sur les performances du réseau étudiée, comme le montre la Fig. 7. Lorsque le classement inversé est exploité (Fig. 8), la comparaison de ces deux graphiques révèle une très grande ressemblance avec celui affiché sur la Fig. 1, illustrant les performances de l’emballage DRSA utilisant SBE.
Parmi toutes les combinaisons d’emballages testées, les meilleures performances ont été affichées pour les classificateurs ANN utilisant le classement DRSA dans l’élimination arrière des caractéristiques (Fig. 7). De bons résultats ont également été obtenus dans la réduction de toutes les règles sur les algorithmes d’exemples générés pour toutes les fonctionnalités, tout en suivant le classement DRSA (Tableau 5; Fig. 6). Dans ce cas, cependant, cela peut s’expliquer par le biais de l’enveloppe lorsque deux systèmes du même type, partageant les mêmes caractéristiques, sont combinés. Il n’en va pas de même pour le premier cas, car les différences entre les classificateurs DRSA et ANN sont clairement démontrées dans le processus observé d’élimination séquentielle en arrière des caractéristiques, ce qui entraîne deux classements distinctement différents.
L’utilisation du classement ANN dans la réduction des attributs en arrière, puis l’induction de nouvelles règles et algorithmes pour toutes les règles sur les exemples, permet d’éliminer huit variables (32%) avant que les performances ne commencent à diminuer (Tableau 3; Fig. 4). Le classement ANN dans la réduction de la FDA entraîne également le rejet de huit variables et jusqu’à 51 888 règles de décision (83%). L’application de classements inversés, basés à la fois sur le DRSA et sur le ANN, a toujours entraîné une dégradation des performances.
Résultats pour l’ensemble de données de forme d’onde
Les attributs de l’ensemble de données de forme d’onde ne sont pas décrits en détail dans le référentiel ML UCI; par conséquent, pour plus de commodité, ils ont simplement été étiquetés de la forme a1 à a21 et les deux classes de décision correspondaient aux types d’ondes sélectionnés, le type 0 et le type 1. Les deux classements obtenus par élimination séquentielle vers l’arrière pour les classificateurs DRSA et ANN sont donnés dans le tableau 6, avec des détails sur les algorithmes induits et les performances pour les deux systèmes, qui sont également tracés pour les deux types de systèmes de classification à la Fig. 9.
Les performances des classificateurs sont comparées les unes aux autres et au point de référence constitué par les précisions prédictives obtenues pour l’ensemble complet de 21 attributs. Algorithme de décision de couverture minimale induit classé seulement 65% avec 55 règles limitées à 20 par des contraintes sur le support pour être égales au moins à 3. L’algorithme All rules on examples atteint un taux de reconnaissance de 74% (31 718 règles limitées à 58 pour un support égal ou supérieur à 48). ANN avec 21 caractéristiques d’entrée a reconnu correctement 89% des échantillons de test.
Lorsque le classement DRSA des caractéristiques est appliqué pour la réduction systématique des entrées aux classificateurs connectionistes, dans la phase initiale, une certaine augmentation des performances peut être observée (voir Fig. 10), mais la tendance visible n’est pas strictement monotone. Le même classement est également utilisé pour la réduction de règles sélectionnées parmi toutes les règles de l’algorithme d’exemples dans les procédures décrites précédemment et dans ce processus, des gains significatifs peuvent être observés: nous pouvons réduire 17 attributs sur 21 (près de 81%) tout en ayant des performances accrues. Ceci, cependant, est sans surprise car les deux inducteurs partagent les mêmes caractéristiques générales, d’où le biais résultant.
L’imposition d’un classement ANN sur le traitement DRSA est à nouveau effectuée de deux manières: soit pour les sous-ensembles progressivement décroissants d’attributs conditionnels, de nouvelles règles de décision sont induites (à la fois MCDA et FDA), soit l’ensemble de règles de l’algorithme de décision complet précédemment déduit est analysé et certaines règles rejetées lorsqu’elles se réfèrent à des fonctionnalités abandonnées. Les détails de toutes les solutions résultantes sont donnés dans le tableau 7. À partir des performances observées, nous pouvons détecter que pour toutes les règles sur les exemples, il est possible de rejeter 13 variables conditionnelles sur 21 (près de 62%), alors que non seulement la reconnaissance n’est pas pire, mais augmente.
Lorsque toutes les règles sur les algorithmes de décision d’exemples (une nouvelle et la FDA réduite) sont comparées à chaque étape, il devient évident qu’elles sont en fait très proches. Même si le nombre de règles impliquées n’est pas toujours exactement le même, la précision de classification qui en résulte est presque identique, ce qui suggère de choisir la deuxième voie, c’est-à-dire la réduction de la FDA générée pour l’ensemble complet des fonctionnalités au lieu d’induire de nouveaux algorithmes. Cela nécessite beaucoup moins d’efforts car la partie difficile des calculs est déjà exécutée. Une fois qu’une sorte de méthode d’élagage des règles est établie, son exécution pourrait être moins exigeante que le processus d’induction.
À titre de comparaison, certains tests de classement inversé ont également été effectués, en écartant les attributs de classement les moins élevés, mais les résultats étaient pires par rapport à la solution correspondante pour la plupart des variables de classement, avec des différences en fonction du nombre d’éléments réduites, augmentant souvent avec elle.
Toutes les expériences menées, tant pour les ensembles de données stylométriques que pour les ensembles de données de forme d’onde, confirment l’utilité de la méthodologie proposée consistant à combiner des wrappers pour l’estimation de la pertinence des caractéristiques utilisées ensuite leur réduction en arrière.