aaaaCzęsto usiłujemy ukryć nasze uczucia przed tymi, którzy powinni je poznać.aaaa
[ Pobierz całość w formacie PDF ]
Porządkowanie i przygotowywanie zbioru danych do obliczeń
Ta część zostanie poświęcona trzem rodzajom operacji na zbiorze danych:
· ważeniu obserwacji;
· wybieraniu obserwacji;
· dzieleniu zbioru danych na podzbiory.
Jedną z własności wszystkich tych operacji jest to, że zmieniają one dostępność danych, a nie powodują stworzenia żadnych fragmentów raportu. O tym, że któreś z tych opcji zostały włączone można się przekonać oglądając dolny pasek stanu w oknie edytora danych. Kolejną, niezwykle ważną własnością tych opcji jest to, że włączenie którejkolwiek z nich powoduje modyfikację operacji wykonywanych później.
Ważenie obserwacji
Ważenie obserwacji jest zabiegiem stosowanym w celu uzyskania takiej modyfikacji wyników uzyskanych w czasie wykonywania następnych analiz, żeby wyniki były możliwie bliskie wynikom uzyskanym dla całej populacji, a nie wyłącznie dla wylosowanej próby. Z ważenia obserwacji korzysta się głównie w przypadku danych sondażowych, których zasięgiem objęta jest cała interesująca nas populacja. Na przykład ważenie można stosować w przypadku danych z Polskiego Generalnego Sondażu Społecznego (dane All.sav pochodzą właśnie z tego badania). Aby móc zważyć obserwacje potrzebna jest do tego celu zmienna ważąca – jeśli w ogóle taka zmienna została stworzona dla zbioru danych, to za zwyczaj jest ona tylko jedna, zatem wybór zmiennej ważącej nie zależy od operacji wykonywanych następnie na zbiorze – zmienna ważąca jest uniwersalna. Dokładniejsze zrozumienie, o co tak na prawdę chodzi w ważeniu obserwacji będzie łatwiejsze, jeśli przyjrzymy się przykładowi. Załóżmy, że chcemy przeprowadzić badanie na populacji studentów SWPS-u. Wiemy z danych udostępnionych przez dziekana, że studentki stanowią 80% wśród wszystkich uczących się. Ponadto wiemy, że wśród kobiet urodzone w 1982 roku stanowią 10%, w 1981 – 19%, w 1980 – 18%, w 1979 – 16%, w 1978 – 12%, w 1977 – 10%, starsze studentki – 15%. Natomiast dla mężczyzn rozkład wyników wygląda następująco: urodzeni w 1982 roku stanowią 12%, w 1981 – 20%, w 1980 – 17%, w 1979 – 16%, w 1978 – 15%, w 1977 – 10%, starsi studenci – 10%. Wobec tego studenci z poszczególnych lat stanowią następujące procenty wszystkich uczniów Szkoły:
kobiety
mężczyźni
ogółem
1982
10% • 80% = 8%
12% • 20% = 2,4%
10,4%
1981
19% • 80% = 15,2%
20% • 20% = 4%
19,2%
1980
18% • 80% = 14,4%
17% • 20% = 3,4%
17,8%
1979
16% • 80% = 12,8%
16% • 20% = 3,2%
16%
1978
12% • 80% = 9,6%
15% • 20% = 3%
12,6%
1977
10% • 80% = 8%
10% • 20% = 2%
10%
starsi
15% • 80% = 12%
10% • 20% = 2%
14%
ogółem
80%
20%
100%
Załóżmy na chwilę, że w ramach pracy rocznej trzeba przygotować badania na temat oceny różnych aspektów relacji damsko-męskich. Wydaje się rozsądne przyjęcie założenia, że inne zdanie na ten sam temat mogą mieć kobiety i mężczyźni, podobnie jak mogą pojawić się różnice w zależności od wieku osób badanych. Powiedzmy, że przebadaliśmy łącznie 100 osób. W znajdującej się niżej tabelce wypisane zostały ilości osób z poszczególnych wyróżnionych wcześniej kategorii, w nawiasie podany jest procent, jaki powinny stanowić poszczególne kategorie:
kobiety
mężczyźni
1982
2 (8%)
1 (2,4%)
1981
18 (15,2%)
5 (4%)
1980
15 (14,4%)
6 (3,4%)
1979
17 (12,8%)
3 (3,2%)
1978
13 (9,6%)
7 (3%)
1977
5 (8%)
4 (2%)
starsi
3 (12%)
1 (2%)
ogółem
73
27
Faktyczny procent całości przebadanej próby jest łatwy do policzenia – skoro mamy 100 osób przebadanych, to 2 osoby stanowią 2% całej próby, 5 osób 5% itd. Wobec tego widać, że na przykład kategoria kobiet urodzonych w 1982 roku jest niedoreprezentowana – jest ich mniej niż być powinno, natomiast na przykład kategoria mężczyzn urodzonych w 1978 roku jest nadreprezentowana, jest ich proporcjonalnie więcej, niż w populacji. W całej próbie jest jedynie 73% kobiet (a powinno być 80%) i aż 27% mężczyzn – wobec tego, jeśli będziemy na takiej próbie obliczać jaki procent osób zgodził się ze stwierdzeniem „Kobiety powinny mężczyznom dawać ściągać na egzaminach” można przypuszczać, że uzyskamy zawyżone wyniki (zakładając, że jest to opinia mężczyzn, a tych jest w próbie więcej niż w populacji).
W prawdziwych badaniach sondażowych zwraca się uwagę na więcej niż dwie zmienne jednocześnie (w naszym przykładzie rozpatrywaliśmy jedynie płeć i wiek); zazwyczaj są to tak zwane dane demograficzne – płeć, wiek, wykształcenie, ilość osób w gospodarstwie domowym, miejsce zamieszkania (wieś, mał...
[ Pobierz całość w formacie PDF ]zanotowane.pldoc.pisz.plpdf.pisz.plpies-bambi.htw.pl