Los experimentos realizados dentro de la investigación descrita se ejecutaron en dos etapas. En la primera etapa, se utilizó el algoritmo de eliminación secuencial hacia atrás (SBE), aplicado en el modelo de envoltura, para establecer la clasificación de los rasgos característicos, revelando su relevancia. La envoltura se construyó para dos tipos de clasificadores, algoritmos de decisión de cobertura mínima (MCDA) inferidos en DRSA y redes neuronales artificiales.
Los dos rankings obtenidos se emplearon a continuación en la segunda etapa, donde se realizó la reducción de atributos, de nuevo para inductores de regla y conexionistas, mientras se observó su desempeño. La eliminación de variables para el clasificador DRSA en esta etapa se ejecutó de dos maneras: descartando atributos e induciendo nuevas reglas y algoritmos, y rechazando reglas del algoritmo de decisión completa (FDA) generado previamente, con todas las reglas sobre ejemplos, inferidas para todas las características consideradas.
Los procedimientos se aplicaron a dos pares de conjuntos de datos. La tarea principal de clasificación fue la atribución de autoría binaria con características estilométricas. Para fines de comparación, las pruebas también se ejecutaron para conjuntos de datos de formas de onda con características similares (el mismo número de clases, números comparables de muestras y atributos). Los resultados de este segundo conjunto de datos se dan al final de esta sección.
Establecer la clasificación de entidades por SBE
Dado que el clasificador DRSA iba a ser utilizado como un envoltorio con reducción secuencial hacia atrás de entidades, significaba comenzar con el conjunto completo de atributos y eliminar un elemento a la vez. Por lo tanto, la inducción de todas las reglas sobre ejemplos en cada caso sería poco práctica, ya que para 25 características en el algoritmo de la FDA, había 62,383 reglas de decisión constituyente. En su lugar, se inferieron algoritmos de decisión de cobertura mínima MCDA y se utilizó su rendimiento para seleccionar un atributo, cuya reducción dio los mejores resultados en comparación con otros en el mismo nivel. Los detalles de todos los pasos se enumeran en la Tabla 1, donde la columna de la derecha (i) muestra la clasificación establecida de los rasgos característicos de la DRSA.
La fila superior de la tabla corresponde a la 0a etapa de reducción, es decir, el clasificador de reglas inducido para los 25 atributos condicionales estudiados, enumerados en la columna (c). El algoritmo de decisión de cobertura mínima generado consistió en 30 reglas constituyentes, que se limitaron a solo 6 mientras exigían que su soporte mínimo fuera igual a al menos 6. La máxima precisión de clasificación obtenida por la restricción impuesta fue del 76,67% de las muestras de ensayo correctamente reconocidas. La precisión de clasificación especificada en la tabla (y para todos los demás casos de minería de datos con DRSA presentados en este documento) se refiere solo a los casos en que todas las reglas de coincidencia se clasifican correctamente. Los casos ambiguos de decisiones contradictorias o de falta de reglas de coincidencia siempre se trataron como incorrectos (lo que es bastante estricto, pero limita el procesamiento adicional necesario de lo contrario).
A continuación, se construyeron 25 nuevos clasificadores MCDA, cada uno con 24 características de entrada, con un atributo eliminado, y su rendimiento se probó y comparó. De estos sistemas, el que tiene la característica reducida correspondiente a la frecuencia de uso de «y» dio el mejor resultado, por lo que este atributo se selecciona como el menos relevante de todos los candidatos y el primero en eliminarse, como se indica en la columna (i) de la tabla.
El conjunto de 24 variables restantes proporciona la base para la siguiente etapa de reducción con un índice igual a 1, que se muestra en la Tabla 1 en la segunda fila. De nuevo, el mejor algoritmo de decisión MCDA consistió en 30 reglas, pero con soporte igual o superior a 2, hubo 17 reglas con una clasificación máxima que alcanzó el 77,78 %.
Se puede observar en la columna (h) de la tabla que la precisión de clasificación aumenta gradualmente desde el 76,67% hasta el máximo de 91,11% de muestras correctamente reconocidas cuando solo quedan 5, 4 o 3 entidades en el conjunto de entrada, para luego disminuir al 84,44% para dos atributos condicionales y al 61,11% para un solo atributo.
El proceso de eliminación de atributos se puede interpretar de esta manera que el sistema descarta estos elementos que son irrelevantes o redundantes y mantiene aquellos que son esenciales para la clasificación, como resultado, la precisión de clasificación aumenta o está al menos al mismo nivel, pero para menos características. El orden en que se eliminan los atributos refleja su importancia. Cuando se invierte este orden, el rendimiento de los clasificadores DRSA disminuye de forma inmediata e irrecuperable, como se ilustra en la Fig. 1.
El mismo procedimiento de reducción secuencial hacia atrás se aplicó a continuación a los clasificadores ANN (Tabla 2), comenzando con la construcción de una red para las 25 características. Para este conjunto, la precisión de clasificación promedio fue justo superior al 91 %. Este valor es obviamente más alto que para el clasificador base DRSA, para el cual fue de solo 76,67 %. Sin embargo, cabe señalar que la clasificación ambigua del sistema basado en reglas, de decisiones contradictorias o de no coincidencia de reglas, se trató como incorrecta en todos los casos considerados y eso influyó en esta menor precisión predictiva. Además, la generación de algoritmos de decisión de cobertura mínima no garantiza la inducción de las mejores reglas, con el mayor potencial para una clasificación correcta, y es bastante común que los algoritmos de decisión construidos con otros enfoques prueben significativamente mejor, pero a costa de procedimientos más complejos, más costos computacionales involucrados y más tiempo de procesamiento necesario .
El cambio positivo de la relación de clasificación, o el mismo rendimiento para un menor número de entradas, no es el único indicador de pertinencia o redundancia de atributos. Cuando se reduce alguna característica, también se modifica en consecuencia la estructura interna del clasificador. Para el procesamiento de DRSA, significa menos reglas constituyentes en un algoritmo de decisión, mientras que para una red neuronal artificial, sus capas se reducen al eliminar neuronas.
Si esta red más pequeña no clasifica peor que antes de la reducción, significa que la relevancia de la entrada recientemente descartada es insignificante y puede tratarse como redundante. La representación se ilustra en la Fig. 2, mientras que la Fig. 3 muestra lo que sucede con la precisión de clasificación del sistema cuando las características de entrada se reducen al seguir la clasificación AN invertida. Los dos gráficos de Figs. 2 y 3 muestran las mismas tendencias que son visibles en el rendimiento previamente trazado de los clasificadores DRSA en la Fig. 1.
Cuando comparamos los Rankings DRSA y ANN entre sí, y analizamos las puntuaciones asignadas a todos los atributos, podemos ver que aunque ambos tipos de clasificadores operan en los mismos conjuntos de datos, los ordenamientos resultantes de las características reducidas son diferentes, solo la última característica restante es la misma en ambos rankings: la frecuencia de uso para «no». Esto es un resultado directo de las características inherentes de los inductores que se transfieren a las clasificaciones calculadas con su ayuda.
Como las envolturas a menudo se acusan de tal sesgo, las clasificaciones obtenidas deben observarse en el proceso de reducción de los rasgos característicos de otros sistemas de clasificación, combinando envolturas del mismo tipo y diferentes, para evaluar su utilidad a través de pruebas, lo que se ilustra en la siguiente sección.
Utilizando la clasificación de características en su reducción
Siguiendo la categorización general de los enfoques de selección de características , la clasificación pertenece a filtros. En la investigación presentada, se obtuvieron dos rankings utilizando envoltorios basados en DRSA y ANN, que se encuentran en las columnas de la derecha de las Tablas 1 y 2. Estos ordenamientos se utilizaron a continuación para filtrar los atributos condicionales del conjunto original de 25, en la eliminación hacia atrás de variables de entrada para nuevos clasificadores.
En la Tabla 3 se muestran los detalles de la aplicación del Ranking ANN a la reducción hacia atrás de atributos en el procesamiento de DRSA, que da como resultado una solución híbrida. En primer lugar, se rechazaron subconjuntos de características con cardinalidades crecientes, y luego, para los subconjuntos restantes, se indujeron nuevos algoritmos de decisión, con una cobertura mínima MCDA, y también con inferir todas las reglas en ejemplos FDA.
Dado que la precisión de clasificación se suele tratar como el factor más importante que indica la calidad de la solución obtenida, podemos centrar nuestra atención en dos (g) columnas de la Tabla 3, o en un gráfico de la Fig. 4. Tanto para los clasificadores MCDA como para los de la FDA, hay varios casos de mejora o el mismo rendimiento cuando se reducen las características, sin embargo, la ganancia, considerada en términos de un número de características rechazadas, o un aumento en la precisión predictiva, o un menor número de reglas de decisión que quedan en el algoritmo, no es tan alta como se observó anteriormente para envoltorios simples ANN o MCDA.
En lugar de reducir atributos condicionales y luego inferir nuevos algoritmos de decisión, lo que puede llevar mucho tiempo, también podemos eliminar estos atributos descartando reglas con condiciones en ellos, limitando todas las reglas en algoritmos de decisión de ejemplos inducidos previamente para todas las características . Este enfoque puede considerarse una ejecución de la clasificación para las normas de decisión.
En primer lugar, a cada regla del algoritmo inducido se le asigna una puntuación, basada en puntuaciones individuales para todos los atributos incluidos en la parte de premisa de la regla. De todos estos puntajes elementales, correspondientes a las condiciones constituyentes, se elige el más alto, indicando el atributo que se percibe como el menos importante; por lo tanto, el primero en ser eliminado, y este puntaje se da a la regla de decisión. Luego, todas las reglas se ordenan por sus puntuaciones, y en cada paso de reducción, se rechazan todas las reglas con una determinada puntuación, lo que resulta en algoritmos de decisión reducidos.
Los detalles de este procedimiento de clasificación de reglas de decisión se dan en la Tabla 4. Para la comparación, también se enumeran los resultados de la reducción del algoritmo de la FDA siguiendo la Clasificación AN invertida, ambos graficados también en la Fig. 5.
La aplicación de la clasificación ANN en la reducción de la FDA resulta en una disminución bastante pronunciada en el número de reglas de decisión restantes, mientras que los clasificadores predicen con la misma precisión o solo ligeramente reducida. La clasificación AN invertida trae una reducción del algoritmo mucho más lenta, pero el rendimiento empeora instantánea e irreparablemente.
Como el establecimiento de la Clasificación de DRSA a través de la eliminación secuencial hacia atrás con la generación de algoritmos de decisión de cobertura mínima se trata como un proceso separado, esta clasificación también se puede usar en el procedimiento de clasificación y reducción de reglas de decisión, limitando todas las reglas del algoritmo de ejemplos, cuyos resultados se dan en la Tabla 5 y el rendimiento se muestra en la Fig. 6.
Las tendencias visibles en la precisión predictiva para algoritmos de decisión reducida mientras se sigue la clasificación DRSA y su reverso recuerdan directamente a estas observadas previamente en el modo de envoltura cuando se estableció la clasificación. Los procedimientos permiten filtrar estas reglas del algoritmo de la FDA que contienen condiciones sobre atributos irrelevantes y algoritmos de retorno con un número significativamente menor de reglas de decisión, manteniendo o incluso aumentando la precisión de la clasificación.
Cuando se empleó la clasificación DRSA en la reducción de las características de entrada a la red neuronal artificial, resultó en otra solución híbrida. En cada etapa de eliminación, se descartó una sola característica y se estudió su influencia en el rendimiento de la red, como se muestra en la Fig. 7. Cuando se explota la clasificación inversa (Fig. 8), la comparación de estos dos gráficos revela un parecido muy cercano al que se muestra en la Fig. 1, que ilustra el rendimiento de la envoltura DRSA que emplea SBE.
De todas las combinaciones probadas de envoltorios, se mostró el mejor rendimiento para los clasificadores ANN que emplean la clasificación DRSA en eliminación de características hacia atrás (Fig. 7). También se obtuvieron buenos resultados en la reducción de todas las reglas sobre algoritmos de ejemplos generados para todas las características, siguiendo el Ranking DRSA (Tabla 5; Fig. 6). En este caso, sin embargo, esto puede explicarse por el sesgo de envoltura cuando se combinan dos sistemas del mismo tipo, que comparten las mismas características. No se puede decir lo mismo para el primer caso, ya que las diferencias entre los clasificadores DRSA y ANN se muestran claramente en el proceso observado de eliminación secuencial hacia atrás de las características, lo que resulta en dos clasificaciones claramente diferentes.
El uso de la clasificación ANN en la reducción de atributos hacia atrás y luego la inducción de nuevas reglas y algoritmos para todas las reglas de los ejemplos permite descartar ocho variables (32 %) antes de que el rendimiento comience a disminuir (Tabla 3; Fig. 4). La clasificación de ANN en reducción de la FDA también trae consigo el rechazo de ocho variables y hasta 51,888 reglas de decisión (83 %). La aplicación de clasificaciones inversas, tanto basadas en DRSA como en ANN, siempre resultó en un peor desempeño.
Resultados para el conjunto de datos de forma de onda
Los atributos para el conjunto de datos de forma de onda no se describen en detalle en el repositorio UCI ML; por lo tanto, para mayor comodidad, simplemente se etiquetaron de forma a1 a a21 y las dos clases de decisión correspondieron a los tipos de onda seleccionados, tipo 0 y tipo 1. Las dos clasificaciones obtenidas por eliminación secuencial hacia atrás para clasificadores DRSA y ANN se presentan en la Tabla 6, con detalles de algoritmos inducidos y rendimiento para ambos sistemas, que también se representa para ambos tipos de sistemas de clasificación en la Fig. 9.
El rendimiento de los clasificadores se compara entre sí y con el punto de referencia constituido por las precisiones predictivas obtenidas para el conjunto completo de 21 atributos. Algoritmo de decisión de cobertura mínima inducido clasificado solo el 65% con 55 reglas limitadas a 20 por restricciones de soporte para ser igual a al menos 3. El algoritmo de todas las reglas en ejemplos alcanza una relación de reconocimiento del 74% (31.718 reglas limitadas a 58 para soporte igual o superior a 48). AN con 21 funciones de entrada reconocidas correctamente el 89% de las muestras de prueba.
Cuando se aplica la clasificación de características DRSA para la reducción sistemática de entradas a los clasificadores conexionistas, en la fase inicial se puede observar cierto aumento en el rendimiento (ver Fig. 10), sin embargo, la tendencia visible no es estrictamente monótona. La misma clasificación también se emplea para la reducción de reglas seleccionadas de todas las reglas del algoritmo de ejemplos en los procedimientos descritos anteriormente y en este proceso se pueden observar ganancias significativas: podemos reducir 17 de 21 atributos (cerca del 81 %) y aún así tener un mayor rendimiento. Sin embargo, esto no sorprende, ya que ambos inductores comparten las mismas características generales, de ahí el sesgo resultante.
La imposición de la clasificación ANN en el procesamiento de DRSA se realiza de nuevo de dos maneras: ya sea para los subconjuntos de atributos condicionales que disminuyen gradualmente, se inducen nuevas reglas de decisión (tanto MCDA como FDA), o se analiza el conjunto de reglas del algoritmo de decisión completa inferido previamente y se rechazan algunas reglas cuando se refieren a características descartadas. Los detalles de todas las soluciones resultantes figuran en el cuadro 7. A partir del rendimiento observado, podemos detectar que para todas las reglas sobre ejemplos, es posible rechazar 13 de 21 variables condicionales (casi el 62 %), mientras que no solo el reconocimiento no es peor, sino que aumenta.
Cuando se comparan todas las reglas sobre algoritmos de decisión de ejemplos (uno nuevo y la FDA reducida) en cada etapa, se hace evidente que, de hecho, están muy cerca. A pesar de que el número de reglas involucradas no siempre es exactamente el mismo, la precisión de clasificación resultante es casi idéntica, lo que sugiere elegir la segunda forma, es decir, con la reducción de la FDA generada para el conjunto completo de características en lugar de inducir nuevos algoritmos. Requiere mucho menos esfuerzo, ya que la parte difícil de los cálculos ya está ejecutada. Una vez establecido algún tipo de método de poda de reglas, su ejecución podría ser menos exigente que el proceso de inducción.
Para la comparación, también se realizaron algunas pruebas de rankings invertidos, descartando los atributos de menor clasificación, pero los resultados fueron peores cuando se compararon con la solución correspondiente para la mayoría de las variables de clasificación, con diferencias dependiendo del número de elementos reducidos, a menudo aumentando junto con él.
Todos los experimentos realizados, tanto para conjuntos de datos estilométricos como de formas de onda, confirman la utilidad de la metodología propuesta de combinar envoltorios para estimar la relevancia de las características utilizadas después de su reducción hacia atrás.