Proporcje w Analizie Danych i Statystyce
Ta sekcja pokazuje jak proporcje działają w analizie danych i w statystyce. Znajdziesz tu czyste definicje, wzory z pełnym zapisem, tabele obliczeń, dwie wizualizacje oraz zadania z rozwiązaniami. Wszystko jest po polsku i bez ozdobników. Liczy się poprawny rachunek i poprawna interpretacja.
Definicja proporcji i częstość w próbie
W próbie o liczności \( n \) liczba sukcesów to \( x \). Proporcja próby to częstość \( \hat{p} \) równa \( \hat{p} = \frac{x}{n} \).
Gdy porównujesz dwie grupy A i B masz \( \hat{p}_1 = \frac{x_1}{n_1} \) oraz \( \hat{p}_2 = \frac{x_2}{n_2} \). Różnica proporcji to \( \hat{p}_1 – \hat{p}_2 \).
Prosty związek liniowy liczby oczekiwanych sukcesów przy stałym udziale \( p \) to \( \operatorname{E}[X] = np \). To zwykła proporcja bezpośrednia między \( n \) i oczekiwaną liczbą sukcesów.
Szacowanie proporcji i błąd standardowy
Błąd standardowy proporcji w pojedynczej próbie to \( \operatorname{SE}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \).
Przedział ufności normalny dla poziomu \( 95\% \) to \( \hat{p} \pm 1{,}96 \cdot \operatorname{SE}(\hat{p}) \).
Przedział Wilsona ma postać \( \frac{\hat{p} + \frac{z^2}{2n}}{1+\frac{z^2}{n}} \pm \frac{z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1+\frac{z^2}{n}} \) dla \( z = 1{,}96 \).
Przykład pełnego obliczenia
Masz \( n = 400 \) oraz \( x = 236 \). Otrzymujesz \( \hat{p} = 0{,}59 \), błąd standardowy około \( 0{,}0246 \) i przedział normalny około \( 0{,}542 \) do \( 0{,}638 \). Przedział Wilsona daje około \( 0{,}541 \) do \( 0{,}637 \). Wyniki są spójne i różnią się minimalnie przez korektę skończonej próby w metodzie Wilsona.
| Krok | Wzór | Wynik |
|---|---|---|
| Proporcja próby | \( \hat{p} = \frac{236}{400} \) | 0,59 |
| Błąd standardowy | \( \sqrt{\frac{0{,}59 \cdot 0{,}41}{400}} \) | 0,0246 |
| Przedział normalny | \( 0{,}59 \pm 1{,}96 \cdot 0{,}0246 \) | 0,542 do 0,638 |
| Przedział Wilsona | wzór z pudełka wyżej | 0,541 do 0,637 |
Wielkość próby dla zadanej dokładności
Przy planowaniu próby dla znanej proporcji wstępnej \( p \) i marginesu błędu \( m \) stosujesz \( n \ge \frac{z^2 p(1-p)}{m^2} \) dla \( z = 1{,}96 \) przy poziomie \( 95\% \).
Gdy brak estymaty \( p \) przyjmij \( p = 0{,}5 \). To daje największy błąd i bezpieczną wartość \( n \).
Przykład. Chcesz \( m = 0{,}03 \) przy poziomie \( 95\% \) i brak wiedzy o \( p \). Liczysz \( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}03^2} \approx 1068 \). Zaokrąglasz w górę.
Porównanie dwóch proporcji test z
Dla hipotezy o równości proporcji stosujesz statystykę \( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \) gdzie \( \hat{p} = \frac{x_1 + x_2}{n_1 + n_2} \).
Różnica istotna gdy wartość bezwzględna \( z \) przekracza \( 1{,}96 \) przy poziomie \( 95\% \).
Przykład. Grupa A ma \( n_1 = 500 \) oraz \( x_1 = 285 \). Grupa B ma \( n_2 = 480 \) oraz \( x_2 = 249 \). Otrzymujesz \( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 \approx 0{,}519 \). Różnica około \( 0{,}051 \). Proporcja łączna \( \hat{p} \approx 0{,}545 \). Błąd wspólny około \( 0{,}0318 \). Statystyka \( z \approx 1{,}61 \). Brak istotności na poziomie \( 95\% \).
| Wielkość | Wzór | Wartość |
|---|---|---|
| \( \hat{p}_1 \) | \( \frac{285}{500} \) | 0,57 |
| \( \hat{p}_2 \) | \( \frac{249}{480} \) | 0,519 |
| Różnica | \( \hat{p}_1 – \hat{p}_2 \) | 0,051 |
| \( \hat{p} \) | \( \frac{285+249}{500+480} \) | 0,545 |
| Błąd wspólny | \( \sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{500}+\frac{1}{480}\right)} \) | 0,0318 |
| Statystyka \( z \) | różnica przez błąd | 1,61 |
Tablica kontyngencji ryzyko względne i iloraz szans
Dla tablicy \( 2 \) razy \( 2 \) z polami \( a \), \( b \), \( c \), \( d \) ryzyko względne to \( \operatorname{RR} = \frac{a/(a+b)}{c/(c+d)} \).
Iloraz szans to \( \operatorname{OR} = \frac{a \cdot d}{b \cdot c} \). Przedział dla logarytmu ilorazu szans to \( \log(\operatorname{OR}) \pm z \sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}} \). Po przekształceniu odwrotnym otrzymujesz granice przez funkcję wykładniczą.
Dla ryzyka względnego stosujesz \( \log(\operatorname{RR}) \pm z \sqrt{\frac{1}{a}-\frac{1}{a+b}+\frac{1}{c}-\frac{1}{c+d}} \).
Przykład. Niech \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \). Otrzymujesz \( \operatorname{RR} \approx 1{,}47 \) oraz \( \operatorname{OR} \approx 2{,}08 \). Dla \( 95\% \) przedział \( \operatorname{OR} \) około \( 1{,}18 \) do \( 3{,}65 \). Dla \( \operatorname{RR} \) około \( 1{,}09 \) do \( 2{,}00 \).
| Zdarzenie | Brak zdarzenia | Suma | |
|---|---|---|---|
| Ekspozycja | \( a = 56 \) | \( b = 44 \) | 100 |
| Brak ekspozycji | \( c = 38 \) | \( d = 62 \) | 100 |
| Suma | 94 | 106 | 200 |
Metryki klasyfikacji z proporcji
Czułość to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \). Swoistość to \( \frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FP}} \). Precyzja to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \).
Miara \( F1 \) to \( \frac{2 \cdot \text{precyzja} \cdot \text{czułość}}{\text{precyzja} + \text{czułość}} \).
Przykład. Na macierzy o wartościach \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{TN} = 93 \), \( \mathrm{FN} = 12 \) otrzymujesz precyzję \( 0{,}80 \), czułość \( 0{,}875 \), swoistość \( 0{,}816 \), miarę \( F1 \approx 0{,}836 \).
| Pozytyw | Negatyw | |
|---|---|---|
| Rzeczywistość pozytyw | \( \mathrm{TP} = 84 \) | \( \mathrm{FN} = 12 \) |
| Rzeczywistość negatyw | \( \mathrm{FP} = 21 \) | \( \mathrm{TN} = 93 \) |
Ważenie i proporcje ważone
Proporcja ważona przy wagach \( w_i \) i wskaźnikach \( x_i \) równych zero albo jeden to \( \hat{p}_w = \frac{\sum w_i x_i}{\sum w_i} \).
To uogólnia zwykłą proporcję na próbę, w której obserwacje mają różne znaczenie lub różne prawdopodobieństwo wyboru.
Przykład. Masz trzy warstwy o wagach \( 2 \), \( 1 \), \( 3 \) i wskaźniki \( 1 \), \( 0 \), \( 1 \). Otrzymujesz \( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} = \frac{5}{6} \approx 0{,}833 \).
Wykresy poglądowe
Liczba oczekiwanych sukcesów dla stałego udziału
Wartość oczekiwana rośnie liniowo z licznością próby. Na rysunku przy \( p = 0{,}6 \) linia ma nachylenie równe \( 0{,}6 \).
Błąd standardowy proporcji a liczność próby
Błąd spada w przybliżeniu jak jedna przez pierwiastek z \( n \). Dla \( \hat{p} \) bliskiego \( 0{,}5 \) wykres poniżej dobrze obrazuje tempo spadku niepewności.
Pułapki i kontrola jakości
Uprzedzenie próby
Jeśli próba nie odzwierciedla populacji, proporcja będzie zafałszowana. Zadbaj o losowy dobór albo poprawne ważenie wyników.
Zbyt mała próba
Przy małym \( n \) przedziały są szerokie i testy mają małą moc. Zastosuj wzór na wielkość próby i zwiększ liczność zanim zaczniesz wnioskować.
Proporcje skrajne
Gdy \( \hat{p} \) jest bardzo bliskie zera albo jedności, używaj metod odpornych jak Wilson lub dokładny test dwumianowy zamiast gołej aproksymacji normalnej.
Zadania z rozwiązaniami
| # | Treść | Wzór | Wynik |
|---|---|---|---|
| 1 | W próbie \( n = 120 \) sukcesów \( x = 36 \). Wyznacz \( \hat{p} \) i błąd standardowy | \( \hat{p} = \frac{36}{120} \), \( \operatorname{SE} = \sqrt{\frac{\hat{p}(1-\hat{p})}{120}} \) | \( \hat{p} = 0{,}3 \), \( \operatorname{SE} \approx 0{,}0418 \) |
| 2 | Dla powyższych danych podaj przedział \( 95\% \) | \( 0{,}3 \pm 1{,}96 \cdot 0{,}0418 \) | około \( 0{,}218 \) do \( 0{,}382 \) |
| 3 | Ile potrzebujesz obserwacji aby \( m = 0{,}04 \) przy \( p = 0{,}5 \) | \( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}04^2} \) | około \( 601 \) |
| 4 | Grupa A \( n_1 = 300 \), \( x_1 = 171 \). Grupa B \( n_2 = 300 \), \( x_2 = 150 \). Sprawdź różnicę proporcji | \( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{300}+\frac{1}{300})}} \) | \( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 = 0{,}5 \), \( z \approx 2{,}45 \) istotność na \( 95\% \) |
| 5 | W tablicy \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \) policz \( \operatorname{RR} \) i \( \operatorname{OR} \) | \( \operatorname{RR} = \frac{56/100}{38/100} \), \( \operatorname{OR} = \frac{56 \cdot 62}{44 \cdot 38} \) | \( \operatorname{RR} \approx 1{,}47 \), \( \operatorname{OR} \approx 2{,}08 \) |
| 6 | Wyznacz przedział \( 95\% \) dla \( \operatorname{OR} \) z zadania \( 5 \) | \( \exp\left(\log(\operatorname{OR}) \pm 1{,}96 \sqrt{\frac{1}{56}+\frac{1}{44}+\frac{1}{38}+\frac{1}{62}}\right) \) | około \( 1{,}18 \) do \( 3{,}65 \) |
| 7 | Policz precyzję i czułość dla \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{FN} = 12 \) | \( \text{precyzja} = \frac{84}{84+21} \), \( \text{czułość} = \frac{84}{84+12} \) | precyzja \( 0{,}80 \), czułość \( 0{,}875 \) |
| 8 | Proporcja ważona dla wag \( 2 \), \( 1 \), \( 3 \) i wskaźników \( 1 \), \( 0 \), \( 1 \) | \( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} \) | \( \hat{p}_w \approx 0{,}833 \) |
| 9 | Przedział \( 95\% \) dla różnicy \( \hat{p}_1 – \hat{p}_2 \) dla zadania \( 4 \) | różnica \( \pm 1{,}96 \) razy błąd wspólny | około \( 0{,}07 \pm 0{,}028 \) czyli \( 0{,}042 \) do \( 0{,}098 \) |
| 10 | Ocena wpływu zwiększenia próby na błąd przy \( \hat{p} = 0{,}5 \). Porównaj \( n = 100 \) i \( n = 400 \) | \( \operatorname{SE}_1 = \sqrt{\frac{0{,}25}{100}} \), \( \operatorname{SE}_2 = \sqrt{\frac{0{,}25}{400}} \) | \( 0{,}05 \) oraz \( 0{,}025 \). Błąd spada o połowę przy czterokrotnym wzroście próby |