Logo pl.boatexistence.com

Jakie są wady przypisywania brakujących wartości do średniej?

Spisu treści:

Jakie są wady przypisywania brakujących wartości do średniej?
Jakie są wady przypisywania brakujących wartości do średniej?

Wideo: Jakie są wady przypisywania brakujących wartości do średniej?

Wideo: Jakie są wady przypisywania brakujących wartości do średniej?
Wideo: How To Handle Missing Values in Categorical Features 2024, Może
Anonim

Średnia imputacja zniekształca relacje między zmiennymi Średnia imputacja zniekształca również relacje wielowymiarowe i wpływa na statystyki, takie jak korelacja. Na przykład poniższe wywołanie PROC CORR oblicza korelację między zmienną Orig_Height a zmiennymi Weight i Age.

Dlaczego używanie średniej do brakujących danych jest złym pomysłem?

Średnia zmniejsza wariancję danych Zagłębiając się w matematykę, mniejsza wariancja prowadzi do węższego przedziału ufności w rozkładzie prawdopodobieństwa[3]. Nie prowadzi to do niczego innego niż wprowadzenie błędu do naszego modelu.

Dlaczego brakujące wartości są problemem?

Brakujące dane stwarzają różne problemy. Po pierwsze, brak danych zmniejsza moc statystyczną, która odnosi się do prawdopodobieństwa, że test odrzuci hipotezę zerową, gdy jest ona fałszywa. Po drugie, utracone dane mogą powodować błędy w szacowaniu parametrów. Po trzecie, może zmniejszyć reprezentatywność próbek.

Dlaczego wredne przypisanie jest złe?

Problem 1: Średnia imputacja nie zachowuje relacji między zmiennymi. To prawda, że przypisanie średniej zachowuje średnią obserwowanych danych. Zatem jeśli brakuje danych całkowicie losowo, oszacowanie średniej pozostaje bezstronne.

Czy należy zastąpić brakujące dane średnią?

Punkty danych odstających będą miały znaczący wpływ na średnią, a zatem w takich przypadkach nie zaleca się używania średniej do zastępowania brakujących wartości. Używanie średnich wartości do zastępowania brakujących wartości może nie stworzyć świetnego modelu, a zatem zostanie wykluczone.

Zalecana: