Wykład 2
(5 października)
Temat: METODY PREZENTACJI MATERIAŁU STATYSTYCZNEGO
Materiał liczbowy otrzymany w wyniku badania należy odpowiednio pogrupować w postaci
szeregów statystycznych.
Szereg statystyczny
– ciąg wielkości statystycznych, uporządkowany według określonych
kryteriów. Wyróżniamy szeregi szczegółowe oraz rozdzielcze.
Szereg szczegółowy
– uporządkowany ciąg wartości badanej cechy statystycznej (rosnąco lub
malejąco).
Przykład: Badamy liczbę dzieci w 10 rodzinach: 0, 1, 2, 1, 2, 1, 2, 3, 0, 4. Szereg statystyczny
szczegółowy: 0, 0, 1, 1, 1, 2, 2, 2, 3, 4.
Szereg rozdzielczy –
ustalona liczba rozłącznych klas (grupa) na jakie podzielono materiał
statystyczny wraz z listą pewnych wartości liczbowych przyporządkowanych kolejnym
klasom szeregu.
W przypadku tworzenia szeregu rozdzielczego wprowadza się następujące oznaczenia:
i
oznacza numer klasy,
i
=1,2,...
k
,
k
oznacza liczbę klas (liczba wariantów cechy),
x
oznacza wartość cechy w
i-
tej klasie,
n
oznacza liczebność
i
-tej klasy, przy czym spełniony jest warunek, że suma wszystkich
k
liczebności jest równa wielkości próby, czyli
∑
=
n
=
n
,
i
i
1
n
n
k
w =
i
oznacza częstość względną (wskaźnik struktury)
i
-tej klasy, przy czym
∑
=
1
oraz
w
=
i
i
i
1
0
£
w
£
1
.
i
i s
n
oznacza liczebność skumulowana
i
-tej klasy, otrzymuje się ją jako sumę liczebności tej
klasy i liczebności wszystkich klas poprzednich
(
)
n
=
n
+
n
+
...
+
n
(
)
i sk
1
2
i
n
(
)
i sk
w
=
oznacza
częstość
skumulowaną
i
-tej
klasy,
otrzymuje
się
jako:
(
)
i sk
n
w
=
w
+
w
+
...
+
w
i
sk
1
2
i
Wyróżnia się dwa rodzaje szeregów rozdzielczych: przedziałowe i punktowe.
Szereg punktowy: Przykład: Badamy liczbę dzieci w 100 rodzinach: 1, 3, 4, 2, 0, ….
Liczba dzieci w rodzinie (
x
)
0
1
2
3
4
20
35
25
15
5
Liczebności (
n
)
0,2
0,35
0,25
0,15
0,05
Częstości (
Ω
)
20
55
80
95
100
Liczebności skumulowane
( )
n
i sk
0,2
0,55
0,8
0,95
1,00
Częstości skumulowane
( )
Ω
i sk
1
Statystyka opisowa, II rok NE, grupy 1-3 B.Z.©
Szeregi przedziałowy: Przykład: Badamy wzrost dzieci.
Wzrost dzieci (
x
)
100-110
110-120
120-130
130-140
25
45
30
10
Liczebności (
n
)
0,23
0,41
0,27
0,09
Częstości (
Ω
)
25
70
100
110
Liczebności skumulowane
( )
n
sk i
0,23
0,64
0,91
1,00
Ω
Częstości skumulowane
( )
sk i
Dolna i górna granica klasy oznaczone są następującymi symbolami:
x
oraz
1
x
. Rozpiętość
0
i
(szerokość) klasy:
= − . Jeżeli dla wszystkich klas szerokość klasy jest taka sama
wtedy przyjmujemy oznaczenie
h
.
h
x
x
i
1
i
0
i
Podstawą analiz statystycznych jest określenie
empirycznego rozkładu
cechy. Określenie
tego rozkładu polega na przyporządkowaniu uszeregowanym rosnąco wartościom
przyjmowanym przez cechę częstościom ich występowania. Zatem rozkład empiryczny jest
wyrażony przez zestawienie wartości cechy wraz z częstościami ich występowania.
Jeżeli rozkład empiryczny przedstawimy za pomocą skumulowanych częstości otrzymamy
dystrybuantĘ empirycznĄ.
Z punktu widzenia formalnego dystrybuantę empiryczną
( )
F
x
(
)
nazywamy funkcję określoną na podstawie danych
x
,
w
dla
i=
1,2,…,
k
następująco:
i
i
0
dla
x
<
x
1
i
( )
∑
F
x
=
w
dla
x
£
x
<
x
n
i
i
i
+
1
s
=
1
1
dla
x
³
x
k
Zatem dystrybuanta empiryczna jest wyrażona przez zestawienie wartości cechy oraz
częstości skumulowanych (szereg rozdzielczy częstości skumulowanych).
Dystrybuanta empiryczna jest funkcją niemalejącą, ograniczoną na przedziale [0,1].
Tworzenie szeregów rozdzielczych przedziałowych
:
I.
Ustalanie liczby klas:
Wybór liczby klas ma decydujące znaczenie, albowiem wybór zbyt małej liczby klas
spowoduje utratę informacji o badanej zbiorowości, natomiast zbyt duża liczba klas
spowoduje utratę przejrzystości badanych danych. Przyjmuje się, że liczba klas powinna być
nie mniejsza niż 5, ale nie większa niż 20.
Liczba klas zależy od wielkości próby. Przyjmuje się, że liczba klas powinna spełniać jeden z
waru
nk
ów:
k
»
n
k
»
1
+
3, 322 log
n
k
£
5 log
n
2
Statystyka opisowa, II rok NE, grupy 1-3 B.Z.©
Warunki te pozwalają na określenie orientacyjnej liczby klas w zależności od wielkości
próby:
n
k
40-60
6-8
60-100
7-10
100-200
9-12
200-500
11-17
II.
Ustalanie rozpiętości klasy:
1.
Rozpiętości klas mogą być jednakowe lub różne. Jeżeli ustalimy jednakowe
rozpiętości, wtedy liczebności oraz częstości w nich występujące będą porównywalne
w całej próbie. Nierówne długości klas są uzasadnione dla niejednorodnych populacji.
Gdy liczebności klas są niejednakowe, wtedy żeby zapewnić porównywalność
n
liczebnościom i częstościom w klasach należy obliczyć gęstości liczebności:
g
=
i
n
h
i
i
w
lub gęstości częstości
g
=
i
.
w
h
i
i
2.
Dla równych rozpiętości klas długość klasy może być wyznaczona z następującej
x
-
x
zależności:
h
³
max
min
. Różnica
x
-
x
jest różnicą pomiędzy maksymalną
max
min
oraz minimalną wielkością z próby i nazywana jest rozstępem z próby.
3.
Klasy nie mogą być puste (czyli takie w których liczebność równa jest zero).
4.
Pierwsza i ostatnia klasa powinny być w miarę możliwości domknięte
III.
Sprawdzanie poprawności grupowania (jest możliwe tylko w wypadku założenia, że
długości klas są stałe i równe
h
):
Jako kryterium poprawności grupowania wykorzystuje się sumę bezwzględnych różnic
środków przedziałów i średnich arytmetycznych z wartości należących do tych
przedziałów:
k
∑
Y
1
2
x
-
x
£
h
;
i
i
i
=
1
x
Y
- środek przedziału
i-
tej klasy,
gdzie:
x
- średnia wyznaczona z wartości należących do
i
i-
tej klasy.
Jeżeli grupowanie przebiega poprawnie suma nie jest większa niż 0,5 razy
h.
3