Proporcje w Analizie Danych i Statystyce

Ta sekcja pokazuje jak proporcje działają w analizie danych i w statystyce. Znajdziesz tu czyste definicje, wzory z pełnym zapisem, tabele obliczeń, dwie wizualizacje oraz zadania z rozwiązaniami. Wszystko jest po polsku i bez ozdobników. Liczy się poprawny rachunek i poprawna interpretacja.

Definicja proporcji i częstość w próbie

W próbie o liczności \( n \) liczba sukcesów to \( x \). Proporcja próby to częstość \( \hat{p} \) równa \( \hat{p} = \frac{x}{n} \).

Gdy porównujesz dwie grupy A i B masz \( \hat{p}_1 = \frac{x_1}{n_1} \) oraz \( \hat{p}_2 = \frac{x_2}{n_2} \). Różnica proporcji to \( \hat{p}_1 – \hat{p}_2 \).

Prosty związek liniowy liczby oczekiwanych sukcesów przy stałym udziale \( p \) to \( \operatorname{E}[X] = np \). To zwykła proporcja bezpośrednia między \( n \) i oczekiwaną liczbą sukcesów.

Szacowanie proporcji i błąd standardowy

Błąd standardowy proporcji w pojedynczej próbie to \( \operatorname{SE}(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \).

Przedział ufności normalny dla poziomu \( 95\% \) to \( \hat{p} \pm 1{,}96 \cdot \operatorname{SE}(\hat{p}) \).

Przedział Wilsona ma postać \( \frac{\hat{p} + \frac{z^2}{2n}}{1+\frac{z^2}{n}} \pm \frac{z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1+\frac{z^2}{n}} \) dla \( z = 1{,}96 \).

Przykład pełnego obliczenia

Masz \( n = 400 \) oraz \( x = 236 \). Otrzymujesz \( \hat{p} = 0{,}59 \), błąd standardowy około \( 0{,}0246 \) i przedział normalny około \( 0{,}542 \) do \( 0{,}638 \). Przedział Wilsona daje około \( 0{,}541 \) do \( 0{,}637 \). Wyniki są spójne i różnią się minimalnie przez korektę skończonej próby w metodzie Wilsona.

Krok	Wzór	Wynik
Proporcja próby	\( \hat{p} = \frac{236}{400} \)	0,59
Błąd standardowy	\( \sqrt{\frac{0{,}59 \cdot 0{,}41}{400}} \)	0,0246
Przedział normalny	\( 0{,}59 \pm 1{,}96 \cdot 0{,}0246 \)	0,542 do 0,638
Przedział Wilsona	wzór z pudełka wyżej	0,541 do 0,637

Wielkość próby dla zadanej dokładności

Przy planowaniu próby dla znanej proporcji wstępnej \( p \) i marginesu błędu \( m \) stosujesz \( n \ge \frac{z^2 p(1-p)}{m^2} \) dla \( z = 1{,}96 \) przy poziomie \( 95\% \).

Gdy brak estymaty \( p \) przyjmij \( p = 0{,}5 \). To daje największy błąd i bezpieczną wartość \( n \).

Przykład. Chcesz \( m = 0{,}03 \) przy poziomie \( 95\% \) i brak wiedzy o \( p \). Liczysz \( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}03^2} \approx 1068 \). Zaokrąglasz w górę.

Porównanie dwóch proporcji test z

Dla hipotezy o równości proporcji stosujesz statystykę \( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \) gdzie \( \hat{p} = \frac{x_1 + x_2}{n_1 + n_2} \).

Różnica istotna gdy wartość bezwzględna \( z \) przekracza \( 1{,}96 \) przy poziomie \( 95\% \).

Przykład. Grupa A ma \( n_1 = 500 \) oraz \( x_1 = 285 \). Grupa B ma \( n_2 = 480 \) oraz \( x_2 = 249 \). Otrzymujesz \( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 \approx 0{,}519 \). Różnica około \( 0{,}051 \). Proporcja łączna \( \hat{p} \approx 0{,}545 \). Błąd wspólny około \( 0{,}0318 \). Statystyka \( z \approx 1{,}61 \). Brak istotności na poziomie \( 95\% \).

Wielkość	Wzór	Wartość
\( \hat{p}_1 \)	\( \frac{285}{500} \)	0,57
\( \hat{p}_2 \)	\( \frac{249}{480} \)	0,519
Różnica	\( \hat{p}_1 – \hat{p}_2 \)	0,051
\( \hat{p} \)	\( \frac{285+249}{500+480} \)	0,545
Błąd wspólny	\( \sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{500}+\frac{1}{480}\right)} \)	0,0318
Statystyka \( z \)	różnica przez błąd	1,61

Tablica kontyngencji ryzyko względne i iloraz szans

Dla tablicy \( 2 \) razy \( 2 \) z polami \( a \), \( b \), \( c \), \( d \) ryzyko względne to \( \operatorname{RR} = \frac{a/(a+b)}{c/(c+d)} \).

Iloraz szans to \( \operatorname{OR} = \frac{a \cdot d}{b \cdot c} \). Przedział dla logarytmu ilorazu szans to \( \log(\operatorname{OR}) \pm z \sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}} \). Po przekształceniu odwrotnym otrzymujesz granice przez funkcję wykładniczą.

Dla ryzyka względnego stosujesz \( \log(\operatorname{RR}) \pm z \sqrt{\frac{1}{a}-\frac{1}{a+b}+\frac{1}{c}-\frac{1}{c+d}} \).

Przykład. Niech \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \). Otrzymujesz \( \operatorname{RR} \approx 1{,}47 \) oraz \( \operatorname{OR} \approx 2{,}08 \). Dla \( 95\% \) przedział \( \operatorname{OR} \) około \( 1{,}18 \) do \( 3{,}65 \). Dla \( \operatorname{RR} \) około \( 1{,}09 \) do \( 2{,}00 \).

	Zdarzenie	Brak zdarzenia	Suma
Ekspozycja	\( a = 56 \)	\( b = 44 \)	100
Brak ekspozycji	\( c = 38 \)	\( d = 62 \)	100
Suma	94	106	200

Metryki klasyfikacji z proporcji

Czułość to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \). Swoistość to \( \frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FP}} \). Precyzja to \( \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \).

Miara \( F1 \) to \( \frac{2 \cdot \text{precyzja} \cdot \text{czułość}}{\text{precyzja} + \text{czułość}} \).

Przykład. Na macierzy o wartościach \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{TN} = 93 \), \( \mathrm{FN} = 12 \) otrzymujesz precyzję \( 0{,}80 \), czułość \( 0{,}875 \), swoistość \( 0{,}816 \), miarę \( F1 \approx 0{,}836 \).

	Pozytyw	Negatyw
Rzeczywistość pozytyw	\( \mathrm{TP} = 84 \)	\( \mathrm{FN} = 12 \)
Rzeczywistość negatyw	\( \mathrm{FP} = 21 \)	\( \mathrm{TN} = 93 \)

Ważenie i proporcje ważone

Proporcja ważona przy wagach \( w_i \) i wskaźnikach \( x_i \) równych zero albo jeden to \( \hat{p}_w = \frac{\sum w_i x_i}{\sum w_i} \).

To uogólnia zwykłą proporcję na próbę, w której obserwacje mają różne znaczenie lub różne prawdopodobieństwo wyboru.

Przykład. Masz trzy warstwy o wagach \( 2 \), \( 1 \), \( 3 \) i wskaźniki \( 1 \), \( 0 \), \( 1 \). Otrzymujesz \( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} = \frac{5}{6} \approx 0{,}833 \).

Wykresy poglądowe

Liczba oczekiwanych sukcesów dla stałego udziału

Wartość oczekiwana rośnie liniowo z licznością próby. Na rysunku przy \( p = 0{,}6 \) linia ma nachylenie równe \( 0{,}6 \).

Błąd standardowy proporcji a liczność próby

Błąd spada w przybliżeniu jak jedna przez pierwiastek z \( n \). Dla \( \hat{p} \) bliskiego \( 0{,}5 \) wykres poniżej dobrze obrazuje tempo spadku niepewności.

Pułapki i kontrola jakości

Uprzedzenie próby

Jeśli próba nie odzwierciedla populacji, proporcja będzie zafałszowana. Zadbaj o losowy dobór albo poprawne ważenie wyników.

Zbyt mała próba

Przy małym \( n \) przedziały są szerokie i testy mają małą moc. Zastosuj wzór na wielkość próby i zwiększ liczność zanim zaczniesz wnioskować.

Proporcje skrajne

Gdy \( \hat{p} \) jest bardzo bliskie zera albo jedności, używaj metod odpornych jak Wilson lub dokładny test dwumianowy zamiast gołej aproksymacji normalnej.

Zadania z rozwiązaniami

#	Treść	Wzór	Wynik
1	W próbie \( n = 120 \) sukcesów \( x = 36 \). Wyznacz \( \hat{p} \) i błąd standardowy	\( \hat{p} = \frac{36}{120} \), \( \operatorname{SE} = \sqrt{\frac{\hat{p}(1-\hat{p})}{120}} \)	\( \hat{p} = 0{,}3 \), \( \operatorname{SE} \approx 0{,}0418 \)
2	Dla powyższych danych podaj przedział \( 95\% \)	\( 0{,}3 \pm 1{,}96 \cdot 0{,}0418 \)	około \( 0{,}218 \) do \( 0{,}382 \)
3	Ile potrzebujesz obserwacji aby \( m = 0{,}04 \) przy \( p = 0{,}5 \)	\( n \ge \frac{1{,}96^2 \cdot 0{,}25}{0{,}04^2} \)	około \( 601 \)
4	Grupa A \( n_1 = 300 \), \( x_1 = 171 \). Grupa B \( n_2 = 300 \), \( x_2 = 150 \). Sprawdź różnicę proporcji	\( z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{300}+\frac{1}{300})}} \)	\( \hat{p}_1 = 0{,}57 \), \( \hat{p}_2 = 0{,}5 \), \( z \approx 2{,}45 \) istotność na \( 95\% \)
5	W tablicy \( a = 56 \), \( b = 44 \), \( c = 38 \), \( d = 62 \) policz \( \operatorname{RR} \) i \( \operatorname{OR} \)	\( \operatorname{RR} = \frac{56/100}{38/100} \), \( \operatorname{OR} = \frac{56 \cdot 62}{44 \cdot 38} \)	\( \operatorname{RR} \approx 1{,}47 \), \( \operatorname{OR} \approx 2{,}08 \)
6	Wyznacz przedział \( 95\% \) dla \( \operatorname{OR} \) z zadania \( 5 \)	\( \exp\left(\log(\operatorname{OR}) \pm 1{,}96 \sqrt{\frac{1}{56}+\frac{1}{44}+\frac{1}{38}+\frac{1}{62}}\right) \)	około \( 1{,}18 \) do \( 3{,}65 \)
7	Policz precyzję i czułość dla \( \mathrm{TP} = 84 \), \( \mathrm{FP} = 21 \), \( \mathrm{FN} = 12 \)	\( \text{precyzja} = \frac{84}{84+21} \), \( \text{czułość} = \frac{84}{84+12} \)	precyzja \( 0{,}80 \), czułość \( 0{,}875 \)
8	Proporcja ważona dla wag \( 2 \), \( 1 \), \( 3 \) i wskaźników \( 1 \), \( 0 \), \( 1 \)	\( \hat{p}_w = \frac{2\cdot1 + 1\cdot0 + 3\cdot1}{2+1+3} \)	\( \hat{p}_w \approx 0{,}833 \)
9	Przedział \( 95\% \) dla różnicy \( \hat{p}_1 – \hat{p}_2 \) dla zadania \( 4 \)	różnica \( \pm 1{,}96 \) razy błąd wspólny	około \( 0{,}07 \pm 0{,}028 \) czyli \( 0{,}042 \) do \( 0{,}098 \)
10	Ocena wpływu zwiększenia próby na błąd przy \( \hat{p} = 0{,}5 \). Porównaj \( n = 100 \) i \( n = 400 \)	\( \operatorname{SE}_1 = \sqrt{\frac{0{,}25}{100}} \), \( \operatorname{SE}_2 = \sqrt{\frac{0{,}25}{400}} \)	\( 0{,}05 \) oraz \( 0{,}025 \). Błąd spada o połowę przy czterokrotnym wzroście próby

Proporcje w Analizie Danych i Statystyce

Definicja proporcji i częstość w próbie