설명 된 연구 내에서 수행 된 실험은 두 단계로 실행되었습니다. 첫 번째 단계에서는 래퍼 모델에 적용된 순차적 역 제거 알고리즘을 사용하여 특성 기능의 순위를 설정하여 관련성을 공개했습니다. 래퍼는 두 가지 유형의 분류 자,최소 커버 결정 알고리즘에 대해 작성되었습니다.
얻은 두 순위는 다음 두 번째 단계에서 사용되었으며,여기서 속성의 감소가 수행되었으며,다시 규칙 및 연결주의 유도자에 대해 수행 된 동안 성능이 관찰되었습니다. 예를 들어,모든 규칙들이 고려된 모든 특징들에 대해 추론되어 있다.
절차는 두 쌍의 데이터 세트에 적용되었습니다. 기본 분류 작업은 스타일 측정 기능이있는 이진 저자 속성이었습니다. 비교를 위해 유사한 특성(동일한 수의 클래스,유사한 수의 샘플 및 속성)을 가진 파형 데이터 세트에 대한 테스트도 실행되었습니다. 이 두 번째 데이터 집합의 결과는 이 섹션의 끝에 제공됩니다.1197
따라서 식약청 알고리즘의 25 개 기능에 대해 62,383 개의 구성 결정 규칙이 있었기 때문에 각 사례의 예제에 대한 모든 규칙을 유도하는 것은 비실용적 일 것입니다. 대신,최소 커버 결정 알고리즘 맥다는 유추 및 성능 같은 수준에서 다른 사람에 비해 최상의 결과를 준 감소 특성을 선택하는 데 사용되었다. 모든 단계에 대한 세부 사항은 표 1 에 나열되어 있습니다.
테이블의 맨 위 행은 0 감소 단계에 해당,그 모두에 대해 유도 된 규칙 분류이다 25 조건부 속성 연구,열에 나열된(기음). 생성 된 최소 커버 결정 알고리즘은 30 개의 구성 규칙으로 구성되었으며,이는 최소 6 개 이상의 지원을 요구하면서 6 개로 제한되었습니다. 부과 된 제약 조건에 의해 얻은 최대 분류 정확도는 올바르게 인식 된 테스트 샘플의 76.67%였습니다. 표에 지정된 분류 정확도는 모든 일치 규칙이 올바르게 분류된 경우에만 해당됩니다. 모순 된 결정 또는 일치 규칙 없음의 모호한 경우는 항상 잘못된 것으로 취급되었습니다(이는 다소 엄격하지만 그렇지 않으면 필요한 추가 처리를 제한합니다).그 후,25 개의 새로운 분류기가 생성되었으며,각각 24 개의 입력 피쳐가 있고,하나의 속성이 제거되었고,그 성능이 테스트되고 비교되었다. 이러한 시스템 중,에 대한 사용 빈도에 해당하는 감소 된 기능을 가진 하나”와”최상의 결과를 준,그래서이 속성은 모든 후보의 가장 관련성이 제거 될 첫 번째로 선택,열에 주어진(나는)테이블의.
24 개의 나머지 변수 세트는 두 번째 행의 표 1 에 표시된 인덱스가 1 인 다음 감소 단계에 대한 기반을 제공합니다. 다시 한 번 최고의 의사 결정 알고리즘은 30 개의 규칙으로 구성되었지만 2 개 이상의 지원으로 최대 분류가 77.78%에 이르는 17 개의 규칙이 있습니다.
표의 열(시간)에서 분류 정확도가 입력 집합에 5 개,4 개 또는 3 개의 피쳐만 남아 있을 때 올바르게 인식된 샘플의 최대 91.11%까지 76.67%에서 점차 증가하는 것을 관찰한 다음 두 개의 조건부 속성의 경우 84.44%,단일 속성의 경우 61.11%로 감소합니다.
특성 제거 프로세스는 시스템이 관련이 없거나 중복되는 이러한 요소를 버리고 분류에 필수적인 요소를 유지하므로 분류 정확도가 증가하거나 적어도 동일한 수준이지만 더 적은 기능에 대해 해석될 수 있습니다. 속성이 제거되는 순서는 그 중요성을 반영합니다. 이 순서가 반전될 때,닥터사 분류기의 성능은 즉시 그리고 회복할 수 없게 감소하는데,이는 도 1 에 도시되어 있다. 1.
동일한 순차적 후진 감소 절차가 다음에 앤 분류기(표 2)에 적용되었으며,25 개의 모든 기능에 대한 네트워크를 구성하는 것으로 시작되었습니다. 이 세트의 평균 분류 정확도는 91%를 약간 상회했습니다. 이 값은 76.67%에 불과한 기본 분류기보다 분명히 높습니다. 그러나 규칙 기반 시스템의 모호한 분류,모순되는 결정 또는 규칙 일치 없음은 모든 고려 된 경우에서 잘못된 것으로 취급되었으며 이러한 낮은 예측 정확도에 영향을 미쳤습니다. 무엇보다,최소한의 커버 결정 알고리즘의 생성은 올바른 분류에 대한 가장 높은 잠재력과 최고의 규칙의 유도를 보장하지 않으며,다른 접근 방식으로 구성된 결정 알고리즘이 훨씬 더 잘 테스트되지만 더 복잡한 절차,더 많은 계산 비용 및 더 많은 처리 시간이 필요하다는 것이 일반적입니다.
분류 비율의 긍정적 인 변화 또는 더 적은 입력에 대한 동일한 성능이 특성 관련성 또는 중복성을 나타내는 유일한 지표는 아닙니다. 몇몇 특징이 감소될 때,또한 분류자의 내부 구조는 그러므로 변경됩니다. 인공 신경 네트워크의 경우,그 층은 뉴런의 제거에 의해 작은 얻을 동안 의사 결정 알고리즘에 적은 구성 규칙을 의미한다.
이러한 소규모 네트워크가 감소 전보다 더 나쁘지 않게 분류된다면,최근에 폐기된 입력의 관련성은 무시할 수 있고 중복으로 취급될 수 있음을 의미한다. 성능은 그림 1 에 나와 있습니다. 2,도 동안. 도 3 은 반전 앤 순위를 따르는 동안 입력 기능이 감소 될 때 시스템의 분류 정확도에 어떤 일이 발생하는지 보여줍니다. 무화과에서 두 그래프. 도 2 및 도 3 은 도 2 의 미리 플로팅된 닥터사 분류기의 성능에서 볼 수 있는 동일한 경향을 나타낸다. 1.
두 가지 유형의 분류자가 동일한 데이터 세트에서 작동하더라도 감소된 피처의 결과 순서는 다르며 마지막 남은 피처만 두 순위에서 동일하다는 것을 알 수 있습니다. 이것은 그들의 도움으로 계산 된 순위로 전송되는 유도제의 고유 한 특성의 직접적인 결과이다.
래퍼는 종종 이러한 편견의 비난으로,얻어진 순위는 다른 분류 시스템에 대한 특성 기능의 감소 과정에서 관찰 할 필요가,동일하고 다른 유형의 래퍼를 결합하여,테스트를 통해 그 유용성을 평가,이는 다음 섹션에서 설명된다.
감소에서 피처 순위 지정
피처 선택 방식의 일반적인 분류에 따라 순위는 필터에 속합니다. 제시된 연구에서 표 1 과 2 의 가장 오른쪽 열에 주어진 박사 및 앤 기반 래퍼를 사용하여 두 가지 순위를 얻었습니다. 이러한 순서는 다음에 25 의 원래 집합에서 조건부 특성을 필터링하여 새 분류기에 대한 입력 변수를 뒤로 제거하는 데 사용되었습니다.
하이브리드 솔루션 결과 처리에서 속성의 뒤로 감소에 앤 순위의 응용 프로그램의 세부 사항은 표 3 에 나와 있습니다. 이 패키지에는 디버깅 심볼이 들어 있습니다.
분류 정확도는 일반적으로 얻어진 용액의 품질을 나타내는 가장 중요한 요소로 취급되기 때문에 표 3 의 두 열 또는 그림 1 의 그래프에 집중할 수 있습니다. 4. 그러나 다수의 거부된 피쳐,또는 예측 정확도의 증가,또는 알고리즘에 남아 있는 결정 규칙의 더 낮은 수의 측면에서 고려되는 이득은 단순 앤 또는 맥다 래퍼에 대해 이전에 관찰된 것만큼 높지 않다.
조건부 속성을 줄이고 시간이 많이 걸릴 수있는 새로운 결정 알고리즘을 유추하는 대신 조건에 따라 규칙을 버리고 이전에 모든 기능에 대해 유도 된 예제 결정 알고리즘의 모든 규칙을 제한하여 이러한 속성을 제거 할 수도 있습니다. 이러한 접근 방식은 결정 규칙에 대한 순위 실행으로 간주 될 수 있습니다.
첫째,유도 알고리즘의 각 규칙에 대해,규칙의 전제 부분에 포함된 모든 속성에 대한 개별 점수에 기초하여 점수가 할당된다. 이 모든 기본 점수에서 구성 조건에 해당하는 가장 높은 점수가 선택되어 가장 중요한 것으로 인식되는 속성을 나타냅니다. 그런 다음 모든 규칙은 점수에 따라 정렬되고 감소의 각 단계에서 특정 점수를 가진 모든 규칙이 거부되어 결정 알고리즘이 감소합니다.
이 결정 규칙 순위 절차의 세부 사항은 표 4 에 나와 있습니다. 비교를 위해,또한 반전 앤 순위를 따르는 동안 식약청 알고리즘 감소의 결과가 나열되어 있으며,둘 다 그림 1 에도도 그려져 있습니다. 5.
식약청의 감소에서 앤 랭킹을 적용하면 나머지 결정 규칙의 수가 다소 급격히 감소하는 반면,분류자는 동일하거나 약간 감소 된 정확도로 예측합니다. 반전 앤 순위는 훨씬 느린 알고리즘 감소를 제공하지만,성능은 즉시 돌이킬 수없는 악화된다.
최소 커버 결정 알고리즘의 생성과 함께 순차적 역 제거를 통한 닥터사 랭킹의 확립이 별도의 프로세스로 취급됨에 따라,이 랭킹은 또한 결정 규칙 순위 및 감소의 절차에서 사용될 수 있으며,그 결과는 표 5 에 나와 있고,도 1 에 나와 있는 성능은 예시 알고리즘에 대한 모든 규칙을 제한한다. 6.
순위와 그 역순을 따르는 동안 감소된 결정 알고리즘에 대한 예측 정확도에서 보이는 경향은 순위가 확립되었을 때 래퍼 모드에서 이전에 관찰된 이들을 직접 상기시킨다. 이러한 규칙을 필터링할 수 있습니다.
인공 신경망에 대한 입력 특성 감소에서 닥터 랭킹이 채택되었을 때,그것은 또 다른 하이브리드 솔루션을 가져왔다. 각 제거 단계에서 단일 기능이 무시되고 네트워크 성능에 미치는 영향이 그림 1 에 그려진대로 연구되었습니다. 7. 반전 순위가 악용 될 때(그림. 8),이 두 그래프의 비교는 그림 1 에 표시된 것과 매우 흡사합니다. 도 1 에 도시된 바와 같이,래퍼의 성능을 설명한다.
테스트 된 모든 래퍼 조합으로부터,피쳐의 역 제거에서 닥터 사 순위를 사용하는 앤 분류기에 대해 최상의 성능이 표시되었습니다(그림 1). 7). 또한 모든 기능에 대해 생성 된 예제 알고리즘에 대한 모든 규칙을 줄임으로써 좋은 결과를 얻었습니다. 6). 그러나이 경우 동일한 특성을 공유하는 동일한 유형의 두 시스템이 결합 될 때 래퍼 바이어스에 의해 설명 될 수 있습니다. 두 개의 서로 다른 순위의 결과로,기능의 순차적 역 제거의 관찰 과정에서 명확하게 표시됩니다.
역 속성 감소에서 앤 순위를 사용하고 예제의 모든 규칙에 대해 새로운 규칙 및 알고리즘을 유도하면 성능이 저하되기 시작하기 전에 8 개의 변수(32%)를 폐기 할 수 있습니다(표 3;그림 1). 4). 식약청 감소의 앤 순위는 또한 8 개의 변수와 51,888 개의 결정 규칙(83%)을 거부합니다. 반전 순위의 응용 프로그램,모두 박사-앤 기반,항상 악화 성능 결과.
파형 데이터 집합에 대한 결과
; 따라서,편의를 위해,그들은 단순히 형태로 분류되었다 대답 1…에 대답 21 그리고 두 가지 결정 클래스는 선택된 웨이브 유형,유형 0 과 유형 1 에 해당합니다. 두 시스템 모두에 대한 유도 알고리즘 및 성능에 대한 세부 사항과 함께 표 6 에 나와 있으며,이 두 가지 유형의 분류 시스템 모두에 대해서도 도 6 에 나와 있습니다. 9.
분류기의 성능은 서로 비교되며 21 개의 속성 집합에 대해 얻은 예측 정확도로 구성된 기준점과 비교됩니다. 최소 커버 결정 알고리즘 유도 65%만 분류 55 로 제한 규칙 20 지원에 대한 제약에 의해 적어도 동일 할 수 3. 예제 알고리즘에 대한 모든 규칙은 74%의 인식 비율(48 보다 크거나 높은 지원을 위해 58 로 제한되는 31,718 규칙)을 달성합니다. 와 앤 21 입력 기능이 제대로 인식 89%테스트 샘플의.
연결주의자 분류자에 대한 입력의 체계적인 감소를 위해 피쳐의 순위가 적용될 때,초기 단계에서 성능의 일부 증가가 관찰될 수 있다(그림 1 참조). 10),그러나 눈에 보이는 추세는 엄격하게 단조 롭지 않습니다. 동일한 순위는 또한 전에 설명 된 절차에서이 과정에서 상당한 이익을 관찰 할 수있는 예제 알고리즘에 대한 모든 규칙에서 선택한 규칙의 감소를 위해 사용된다:우리는(81%에 가까운)21 속성 중 17 을 줄일 수 있으며,여전히 성능을 증가했다. 그러나 이것은 두 유도체가 동일한 일반적인 특성을 공유하므로 놀랄 일이 아닙니다.
박사 처리에 앤 순위를 부과하는 것은 두 가지 방법으로 다시 수행됩니다: 조건부 속성의 점차 감소하는 하위 집합에 대해 새로운 결정 규칙이 유도되거나 이전에 추론 된 완전한 결정 알고리즘의 규칙 집합이 분석되고 일부 규칙은 폐기 된 기능을 참조 할 때 거부됩니다. 모든 결과 솔루션의 세부 사항은 표 7 에 나와 있습니다. 관찰 된 성능에서 우리는 예제의 모든 규칙에 대해 21 개의 조건부 변수(거의 62%)중 13 개를 거부 할 수 있다는 것을 감지 할 수 있지만 인식이 악화되지는 않지만 증가합니다.
각 단계에서 예제 결정 알고리즘에 대한 모든 규칙(새 규칙 및 감소된 식약청)을 비교할 때,그것들은 실제로 매우 가깝다는 것이 명백해진다. 관련된 규칙의 수가 항상 정확히 동일하지는 않지만 결과 분류 정확도는 거의 동일합니다. 계산의 어려운 부분이 이미 실행되기 때문에 훨씬 적은 노력이 필요합니다. 일단 규칙의 가지 치기에 대한 어떤 종류의 방법이 확립되면,그 실행은 유도 과정보다 덜 까다로울 수 있습니다.
비교를 위해,역 순위에 대한 몇 가지 테스트가 수행되었다,최소 순위 속성을 폐기,하지만 결과는 대부분의 순위 변수에 대한 해당 솔루션에 비해 더 나빴다,요소의 수에 따라 차이가 감소,종종 함께 증가.
수행 된 모든 실험은 스타일 메트릭 및 파형 데이터 세트 모두에 대해 다음에 사용 된 기능 관련성을 추정하기 위해 래퍼를 결합하는 제안 된 방법론의 유용성을 확인합니다.