Proporcje w Analizie Danych i Statystyce

Proporcje w Analizie Danych i Statystyce

Ta sekcja pokazuje jak proporcje działają w analizie danych i w statystyce. Znajdziesz tu czyste definicje, wzory z pełnym zapisem, tabele obliczeń, dwie wizualizacje oraz zadania z rozwiązaniami. Wszystko jest po polsku i bez ozdobników. Liczy się poprawny rachunek i poprawna interpretacja.

Definicja proporcji i częstość w próbie

W próbie o liczności \( n \) liczba sukcesów to \( x \). Proporcja próby to częstość \( \hat{p} \) równa \( \hat{p} = \frac{x}{n} \).

Gdy porównujesz dwie grupy A i B masz \( \hat{p}_1 = \frac{x_1}{n_1} \) oraz \( \hat{p}_2 = \frac{x_2}{n_2} \). Różnica proporcji to \( \hat{p}_1 – \hat{p}_2 \).

Prosty związek liniowy liczby oczekiwanych sukcesów przy stałym udziale \( p \) to \( \operatorname{E}[X] = np \). To zwykła proporcja bezpośrednia między \( n \) i oczekiwaną liczbą sukcesów.

Szacowanie proporcji i błąd standardowy

Błąd standardowy proporcji w pojedynczej próbie to \( \operatorname{SE}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \).

Przedział ufności normalny dla poziomu \( 95\% \) to \( \hat{p} \pm 1{,}96 \cdot \operatorname{SE}(\hat{p}) \).

Przedział Wilsona ma postać \( \frac{\hat{p} + \frac{z^2}{2n}}{1+\frac{z^2}{n}} \pm \frac{z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1+\frac{z^2}{n}} \) dla \( z = 1{,}96 \).

Przykład pełnego obliczenia

Masz \( n = 400 \) oraz \( x = 236 \). Otrzymujesz \( \hat{p} = 0{,}59 \), błąd standardowy około \( 0{,}0246 \) i przedział normalny około \( 0{,}542 \) do \( 0{,}638 \). Przedział Wilsona daje około \( 0{,}541 \) do \( 0{,}637 \). Wyniki są spójne i różnią się minimalnie przez korektę skończonej próby w metodzie Wilsona.

KrokWzórWynik
Proporcja próby\( \hat{p} = \frac{236}{400} \)0,59
Błąd standardowy\( \sqrt{\frac{0{,}59 \cdot 0{,}41}{400}} \)0,0246
Przedział normalny\( 0{,}59 \pm 1{,}96 \cdot 0{,}0246 \)0,542 do 0,638
Przedział Wilsonawzór z pudełka wyżej0,541 do 0,637

Wielkość próby dla zadanej dokładności

Przy planowaniu próby dla znanej proporcji wstępnej \( p \) i marginesu błędu \( m \) stosujesz \( n \ge \frac{z^2 p(1-p)}{m^2} \) dla \( z = 1{,}96 \) przy poziomie \( 95\% \).

Gdy brak estymaty \( p \) przyjmij \( p = 0{,}5 \). To daje największy błąd i bezpieczną wartość \( n \).

Przykład. Chcesz \( m = 0{,}03 \) przy poziomie \( 95\% \) i brak wiedzy o \( p \). Liczysz \( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}03^2} \approx 1068 \). Zaokrąglasz w górę.

Porównanie dwóch proporcji test z

Dla hipotezy o równości proporcji stosujesz statystykę \( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \) gdzie \( \hat{p} = \frac{x_1 + x_2}{n_1 + n_2} \).

Różnica istotna gdy wartość bezwzględna \( z \) przekracza \( 1{,}96 \) przy poziomie \( 95\% \).

Przykład. Grupa A ma \( n_1 = 500 \) oraz \( x_1 = 285 \). Grupa B ma \( n_2 = 480 \) oraz \( x_2 = 249 \). Otrzymujesz \( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 \approx 0{,}519 \). Różnica około \( 0{,}051 \). Proporcja łączna \( \hat{p} \approx 0{,}545 \). Błąd wspólny około \( 0{,}0318 \). Statystyka \( z \approx 1{,}61 \). Brak istotności na poziomie \( 95\% \).

WielkośćWzórWartość
\( \hat{p}_1 \)\( \frac{285}{500} \)0,57
\( \hat{p}_2 \)\( \frac{249}{480} \)0,519
Różnica\( \hat{p}_1 – \hat{p}_2 \)0,051
\( \hat{p} \)\( \frac{285+249}{500+480} \)0,545
Błąd wspólny\( \sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{500}+\frac{1}{480}\right)} \)0,0318
Statystyka \( z \)różnica przez błąd1,61

Tablica kontyngencji ryzyko względne i iloraz szans

Dla tablicy \( 2 \) razy \( 2 \) z polami \( a \), \( b \), \( c \), \( d \) ryzyko względne to \( \operatorname{RR} = \frac{a/(a+b)}{c/(c+d)} \).

Iloraz szans to \( \operatorname{OR} = \frac{a \cdot d}{b \cdot c} \). Przedział dla logarytmu ilorazu szans to \( \log(\operatorname{OR}) \pm z \sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}} \). Po przekształceniu odwrotnym otrzymujesz granice przez funkcję wykładniczą.

Dla ryzyka względnego stosujesz \( \log(\operatorname{RR}) \pm z \sqrt{\frac{1}{a}-\frac{1}{a+b}+\frac{1}{c}-\frac{1}{c+d}} \).

Przykład. Niech \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \). Otrzymujesz \( \operatorname{RR} \approx 1{,}47 \) oraz \( \operatorname{OR} \approx 2{,}08 \). Dla \( 95\% \) przedział \( \operatorname{OR} \) około \( 1{,}18 \) do \( 3{,}65 \). Dla \( \operatorname{RR} \) około \( 1{,}09 \) do \( 2{,}00 \).

ZdarzenieBrak zdarzeniaSuma
Ekspozycja\( a = 56 \)\( b = 44 \)100
Brak ekspozycji\( c = 38 \)\( d = 62 \)100
Suma94106200

Metryki klasyfikacji z proporcji

Czułość to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \). Swoistość to \( \frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FP}} \). Precyzja to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \).

Miara \( F1 \) to \( \frac{2 \cdot \text{precyzja} \cdot \text{czułość}}{\text{precyzja} + \text{czułość}} \).

Przykład. Na macierzy o wartościach \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{TN} = 93 \), \( \mathrm{FN} = 12 \) otrzymujesz precyzję \( 0{,}80 \), czułość \( 0{,}875 \), swoistość \( 0{,}816 \), miarę \( F1 \approx 0{,}836 \).

PozytywNegatyw
Rzeczywistość pozytyw\( \mathrm{TP} = 84 \)\( \mathrm{FN} = 12 \)
Rzeczywistość negatyw\( \mathrm{FP} = 21 \)\( \mathrm{TN} = 93 \)

Ważenie i proporcje ważone

Proporcja ważona przy wagach \( w_i \) i wskaźnikach \( x_i \) równych zero albo jeden to \( \hat{p}_w = \frac{\sum w_i x_i}{\sum w_i} \).

To uogólnia zwykłą proporcję na próbę, w której obserwacje mają różne znaczenie lub różne prawdopodobieństwo wyboru.

Przykład. Masz trzy warstwy o wagach \( 2 \), \( 1 \), \( 3 \) i wskaźniki \( 1 \), \( 0 \), \( 1 \). Otrzymujesz \( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} = \frac{5}{6} \approx 0{,}833 \).

Wykresy poglądowe

Liczba oczekiwanych sukcesów dla stałego udziału

Wartość oczekiwana rośnie liniowo z licznością próby. Na rysunku przy \( p = 0{,}6 \) linia ma nachylenie równe \( 0{,}6 \).

Błąd standardowy proporcji a liczność próby

Błąd spada w przybliżeniu jak jedna przez pierwiastek z \( n \). Dla \( \hat{p} \) bliskiego \( 0{,}5 \) wykres poniżej dobrze obrazuje tempo spadku niepewności.

Pułapki i kontrola jakości

Uprzedzenie próby

Jeśli próba nie odzwierciedla populacji, proporcja będzie zafałszowana. Zadbaj o losowy dobór albo poprawne ważenie wyników.

Zbyt mała próba

Przy małym \( n \) przedziały są szerokie i testy mają małą moc. Zastosuj wzór na wielkość próby i zwiększ liczność zanim zaczniesz wnioskować.

Proporcje skrajne

Gdy \( \hat{p} \) jest bardzo bliskie zera albo jedności, używaj metod odpornych jak Wilson lub dokładny test dwumianowy zamiast gołej aproksymacji normalnej.

Zadania z rozwiązaniami

#TreśćWzórWynik
1 W próbie \( n = 120 \) sukcesów \( x = 36 \). Wyznacz \( \hat{p} \) i błąd standardowy \( \hat{p} = \frac{36}{120} \), \( \operatorname{SE} = \sqrt{\frac{\hat{p}(1-\hat{p})}{120}} \) \( \hat{p} = 0{,}3 \), \( \operatorname{SE} \approx 0{,}0418 \)
2 Dla powyższych danych podaj przedział \( 95\% \) \( 0{,}3 \pm 1{,}96 \cdot 0{,}0418 \) około \( 0{,}218 \) do \( 0{,}382 \)
3 Ile potrzebujesz obserwacji aby \( m = 0{,}04 \) przy \( p = 0{,}5 \) \( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}04^2} \) około \( 601 \)
4 Grupa A \( n_1 = 300 \), \( x_1 = 171 \). Grupa B \( n_2 = 300 \), \( x_2 = 150 \). Sprawdź różnicę proporcji \( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{300}+\frac{1}{300})}} \) \( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 = 0{,}5 \), \( z \approx 2{,}45 \) istotność na \( 95\% \)
5 W tablicy \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \) policz \( \operatorname{RR} \) i \( \operatorname{OR} \) \( \operatorname{RR} = \frac{56/100}{38/100} \), \( \operatorname{OR} = \frac{56 \cdot 62}{44 \cdot 38} \) \( \operatorname{RR} \approx 1{,}47 \), \( \operatorname{OR} \approx 2{,}08 \)
6 Wyznacz przedział \( 95\% \) dla \( \operatorname{OR} \) z zadania \( 5 \) \( \exp\left(\log(\operatorname{OR}) \pm 1{,}96 \sqrt{\frac{1}{56}+\frac{1}{44}+\frac{1}{38}+\frac{1}{62}}\right) \) około \( 1{,}18 \) do \( 3{,}65 \)
7 Policz precyzję i czułość dla \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{FN} = 12 \) \( \text{precyzja} = \frac{84}{84+21} \), \( \text{czułość} = \frac{84}{84+12} \) precyzja \( 0{,}80 \), czułość \( 0{,}875 \)
8 Proporcja ważona dla wag \( 2 \), \( 1 \), \( 3 \) i wskaźników \( 1 \), \( 0 \), \( 1 \) \( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} \) \( \hat{p}_w \approx 0{,}833 \)
9 Przedział \( 95\% \) dla różnicy \( \hat{p}_1 – \hat{p}_2 \) dla zadania \( 4 \) różnica \( \pm 1{,}96 \) razy błąd wspólny około \( 0{,}07 \pm 0{,}028 \) czyli \( 0{,}042 \) do \( 0{,}098 \)
10 Ocena wpływu zwiększenia próby na błąd przy \( \hat{p} = 0{,}5 \). Porównaj \( n = 100 \) i \( n = 400 \) \( \operatorname{SE}_1 = \sqrt{\frac{0{,}25}{100}} \), \( \operatorname{SE}_2 = \sqrt{\frac{0{,}25}{400}} \) \( 0{,}05 \) oraz \( 0{,}025 \). Błąd spada o połowę przy czterokrotnym wzroście próby

Podobne wpisy