Dla wszystkich analizowanych zmiennych sporządzono tzw. histogramy N-1. Zawierają one trzy typy danych: rozkład wszystkich przypadków danego typu (NC/CC) na podstawie zmiennej evthdr.mc.iaction (rozdz. 5.3), rozkład przypadków poprawnie zakwalifikowanych po wszystkich N cięciach algorytmu selekcji oraz liczbę przypadków poprawnie zakwalifikowanych po N-1 cięciach (po usunięciu cięcia na badanej zmiennej). Jeśli wykresy po N i N-1 cięciach nie będą się różniły, wówczas oznacza to, iż dana zmienna nic nie wnosi do selekcji i jest zbędna w analizie.
W celu podniesienia jakości testu N-1, dla każdej zmiennej sporządzone zostały dodatkowe histogramy zawierające rozkłady przypadków niepoprawnie zaklasyfikowanych po N i N-1 cięciach.
Na podstawie analizy histogramów N-1 wybrano omawiane trzy zmienne (rozdz. 5.3) spośród wszystkich pozostałych.
Histogramy N-1 dla selekcji zoptymalizowanej na CC dla przykładowo wybranej3 zmiennej nr 1 znajdują się na rysunkach 5.14 i 5.15.
Rysunek 5.14: Histogram N-1 dla zmiennej nr 1 - przypadki poprawnie zaklasyfikowane dla selekcji zoptymalizowanej na CC. Czerwoną ciągłą linią oznaczono pierwotną ilość przypadków, zieloną przerywaną (jaśniejszą) ilość przypadków po N-1 cięciach, a niebieską przerywaną po wszystkich cięciach
Rysunek 5.15: Histogram N-1 dla zmiennej nr 1 - przypadki niepoprawnie zaklasyfikowane dla selekcji zoptymalizowanej na CC. Czerwoną ciągłą linią oznaczono pierwotną ilość przypadków, zieloną przerywaną (jaśniejszą) ilość przypadków po N-1 cięciach, a niebieską przerywaną po wszystkich cięciach
Histogramy N-1 dla selekcji zoptymalizowanej na NC dla przykładowo wybranej zmiennej nr 2 znajdują się na rysunkach 5.16 i 5.17.
Rysunek 5.16: Histogram N-1 dla zmiennej nr 2 - przypadki poprawnie zaklasyfikowane. Czerwoną ciągłą linią oznaczono pierwotną ilość przypadków, zieloną przerywaną (jaśniejszą) ilość przypadków po N-1 cięciach, a niebieską przerywaną po wszystkich cięciach
Rysunek 5.17: Histogram N-1 dla zmiennej nr 2 - przypadki niepoprawnie zaklasyfikowane. Czerwoną ciągłą linią oznaczono pierwotną ilość przypadków, zieloną przerywaną (jaśniejszą) ilość przypadków po N-1 cięciach, a niebieską przerywaną po wszystkich cięciach
Na podstawie powyższych histogramów N-1 widać, iż podane zmienne są w selekcji niezbędne. W pewnych obszarach wykresy po N i N-1 cięciach są identyczne - w tym przypadku obszar ten jest poza granicą cięcia. Z kolei przyglądając się obszarowi objętemu danym cięciem zauważyć można różnice między przerywanymi liniami. Oznacza to, iż dana zmienna wnosi istotny wkład do selekcji.
Copyright © 2008-2010 EPrace oraz autorzy prac.