Średnia imputacja zniekształca relacje między zmiennymi Średnia imputacja zniekształca również relacje wielowymiarowe i wpływa na statystyki, takie jak korelacja. Na przykład poniższe wywołanie PROC CORR oblicza korelację między zmienną Orig_Height a zmiennymi Weight i Age.
Dlaczego używanie średniej do brakujących danych jest złym pomysłem?
Średnia zmniejsza wariancję danych Zagłębiając się w matematykę, mniejsza wariancja prowadzi do węższego przedziału ufności w rozkładzie prawdopodobieństwa[3]. Nie prowadzi to do niczego innego niż wprowadzenie błędu do naszego modelu.
Dlaczego brakujące wartości są problemem?
Brakujące dane stwarzają różne problemy. Po pierwsze, brak danych zmniejsza moc statystyczną, która odnosi się do prawdopodobieństwa, że test odrzuci hipotezę zerową, gdy jest ona fałszywa. Po drugie, utracone dane mogą powodować błędy w szacowaniu parametrów. Po trzecie, może zmniejszyć reprezentatywność próbek.
Dlaczego wredne przypisanie jest złe?
Problem 1: Średnia imputacja nie zachowuje relacji między zmiennymi. To prawda, że przypisanie średniej zachowuje średnią obserwowanych danych. Zatem jeśli brakuje danych całkowicie losowo, oszacowanie średniej pozostaje bezstronne.
Czy należy zastąpić brakujące dane średnią?
Punkty danych odstających będą miały znaczący wpływ na średnią, a zatem w takich przypadkach nie zaleca się używania średniej do zastępowania brakujących wartości. Używanie średnich wartości do zastępowania brakujących wartości może nie stworzyć świetnego modelu, a zatem zostanie wykluczone.