Ankiety studenckie, stratyfikacja a macierze korelacji

Dzisiejszy wpis jest pierwszym z serii wpisem dotyczącym wizualizacji i analizy danych zbieranych w procesie nauczania w szkołach wyższych. Rok temu mój magistrant, Filip Grotkowski, w ramach pracy magisterskiej wykonał szkielet oprogramowania pozwalający na automatyczne generowanie raportów na podstawie danych z systemów: Uniwersytecki System Obsługi Studentów (USOS) i Internetowa Rejestracja Kandydatów (IRKA). Więcej o systemie USOS przeczytać można np. tutaj.

Kolejni magistranci kontynuują rozwój tego systemu. Celem jest opracowanie systemu raportów, który będzie prezentował ciekawe informacje dla studentów i nauczycieli akademickich. Aktualnie kilkanaście uczelni używa tego systemu i teoretycznie raz opracowany zestaw raportów będzie można uruchomić na każdej z tych uczleni. Tak więc ten i kolejne wpisy w tle mają pytanie, jakie informacje użyteczne dla studentów i nauczycieli akademickich można wyłowić z baz danych o procesie studiowania i mam nadzieję, że czytelnicy tego bloga swoimi uwagami pomogą w znalezieniu sposobów znajdowania odpowiedzi na najciekawsze pytania.

 

Dziś będzie o liczeniu korelacji pomiędzy wynikami z ankiet studenckich.

Na wydziale MIM Uniwersytetu Warszawskiego przeprowadzane są ankiety wśród studentów. O ile wiem ankiety są organizowane przez Samorząd Studencki.
Studenci odpowiadają na 11 pytań opisujących ich zadowolenie z każdego z wybranych przedmiotów. Między innymi oceniają przygotowanie prowadzącego, dostępność materiałów, dostępność prowadzącego, ogólną ocenę zajęć, ogólna oceną prowadzącego itp.

Wielki plus dla samorządu za zorganizowanie tego systemu i aktywne motywowanie studentów do wypełniania ankiet, dzięki czemu wypełnianych jest kilka tysięcy ankiet na semestr. Plus za pytanie o 11 aspektów dotyczących przeżytego kursu, ułatwia to zrozumienie co się podobało a co nie w danym kursie. Minus za brak pomysłu na przedstawienie wyników dla tych 11 aspektów.

 

Wyniki ankiet dla kierunku Matematyka dla semestru zimowego 2010 opracowane przez studentów wydziału MIM zostały umieszczone pod tym adresem. Raport jest miły dla oka, znajduje się tam wiele wykresów i liczb. Brawa dla autorów za jego wykonanie, ale jak zwykle nawet w najlepszym raporcie znajdzie się coś do czego  można mieć uwagę. A moja jest taka, że mam wrażenie, że z takich ankiet można wyciągnąć więcej informacji. I to jest temat kilku najbliższych wpisów.

Ten wpis poświęcę dyskusji nt. macierzy korelacji pomiędzy odpowiedziami na pytania z ankiet.
Jest ona przedstawiona w wymienionym wyżej raporcie w części ‘Korelacja pomiędzy wynikami z pytań’.
Pamiętajmy, że te wyniki są prezentowane dla studentów i pracowników wydziału informatyki i matematyki, więc można wybaczyć zalew liczb i prezentowanie korelacji z dokładnością do trzech cyfr po przecinku (co sam też będę czynił poniżej).

Problem z tą macierzą korelacji polega na tym, że nie wiadomo co ona pokazuje.

Dlaczego?
Przypomnijmy jak była ona konstruowana.
Studenci dla każdego odbytego kursu odpowiadali na 11 pytań w skali od 1 do 7. Puryści stwierdzą, że ta skala przypomina bardziej skalę Likerta niż dane ilościowe więc liczenie z odpowiedzi średniej a co dopiero korelacji nie ma sensu. Ale przymknijemy na razie na to oko.
Skupmy się na razie na tym jak policzyć korelację pomiędzy dwoma pytaniami, np. ogólną oceną z zajęć a ogólną oceną prowadzącego.
Problem z liczeniem korelacji zilustrujemy takim przykładem. Przypuśćmy, że poniższa tabela opisuje wyniki z czterech ankiet.

Korelacja próbkowa dla odpowiedzi na te pytania to 0,8. Ale jest ona pochodną tego, że jeden prowadzący został wysoko oceniony a drugi nisko. Mamy bowiem do czynienia z grupami odpowiedzi o potencjalnie różnych rozkładach (średnich) i obserwujemy mieszaninę takich grup. Spróbujmy oddzielić wpływ prowadzącego na ocenę i wpływ rozumienia pytania 1 i 2 przez oceniającego studenta.

Licząc średnie w kolumnach, możemy każdemu prowadzącemu przypisać średnią ocenę na zadane pytanie.

Jeżeli teraz policzymy korelację pomiędzy takimi średnimi otrzymamy korelację równą 1. Ta korelacja opisuje jak bardzo podobne są charakterystyki 1 i 2 prowadzących. Wysoka korelacja świadczy o tym, że prowadzący wysokich odpowiedziach na jedno pytanie mają też wysokie odpowiedzi na drugie pytanie.

Zobaczmy teraz jak wyglądają różnice pomiędzy wynikami z ankiet a średnimi wynikami prowadzących (będę je poniżej nazywał resztami)

To oczywiście skrajny przykład, ale ma na celu pokazanie, że licząc korelację na średnich lub na resztach można nadać interpretację takich korelacji. Liczenie korelacji z pominięciem informajcie o ,,efekcie prowadzącego” utrudnia lub uniemożliwia określenie co dokładnie ta korelacja mierzy. Liczba jakaś zawsze wyjdzie, ale co ona znaczy?
Tego typu problem polegający na obserwowaniu wartości z grupy niejednorodnych podpopulacji jest w analizie danych dosyć częsty, warto więc być na niego wyczulonym.

Ok, a jak to wygląda dla naszych danych, tj wyników ankiety dotyczacych semestru zimowego 2010?
Dostęp mam tylko do odpowiedzi na 8 z wymienionych 11 pytań, dlatego poniżej pokazuję macierz korelacji tylko dla tych 8 pytań.
Pierwsza macierz pokazuje korelację pomiędzy średnimi dla prowadzących, druga to korelacja pomiędzy resztami.
Jak widzimy te macierze dosyć się różnią.

Macierz korelacji dla średnich ocen prowadzących.

Macierz korelacji dla różnic pomiędzy ocenami prowadzących a wynikami ankiet.

Powyższe macierze różnią się. Najbardziej różnią się korelacje pomiędzy oceną opiniowanych zajęć a pozostałymi odpowiedziami. Patrząc na korelacje liczone na średnich dla prowadzących mamy wysoka korelację, która świadczy o tym, że jeżeli prowadzący jest wysoko oceniany to i zajęcia są wysoko oceniane (i symetrycznie, korelacja jest symetryczną miarą).
Porównując korelacje liczone na resztach, widzimy brak istotnych korelacji. Co znaczy, że studenci inaczej interepretują ocenę prowadzącego i ocenę przedmiotu. Uwzględniwszy ,,efekt prowadzącego” odpowiedzi na te pytania są nieskorelowane. Pozostałe pytania są skorelowane w podobnym stopniu, co można interpretować tak, że wszystkie pytania poza siódmym oceniają różne cechy prowadzącego, sposobu przekazywania wiedzy, uporządkowania, charyzmy itp. Pytanie 7 w percepcji studentów dotyczy wyłącznie oceny przedmiotu.

Dociekliwi zauważą, że podobnie jak braliśmy pod uwage ,,efekt prowadzącego” tak i powinniśmy brać pod uwage ,,efekt studenta”. Nie jesteśmy jednak w stanie tego zrobić, ponieważ ankiety są anonimowe i nie ma jak policzyć średniej odpowiedzi na wybranego studenta. Ponieważ jednak liczba ankiet na studenta jest mnijesza niż liczba ankiet na przedmiot więc można mieć nadzieję, że efekt studenta jest znacznie mniejszy.

Pointa?
Przedstawianie różnych charakterystyk danych z ankiet to świetny pomysł ale trzeba zastanowić się co prezentuje dana charakterystyka i czy przypadkiem nie jest ona obciążona jakimś innym efektem.
Licząc korelację na danych, które agregują wyniki z kilku grup należy wziąć pod uwage różnice pomiędzy grupami. Dzięki temu będzie można wskazać na jakim etapie korelacja/podobieństwo jest istotne.
Pytanie z którym należy się jeszcze zmierzyć to w jaki sposób pokazać macierz korelacji tak by dało się ją całą ogarnąć percepcją.

 

Wykresy radarowe a kobieta manager

Kilka dni temu przy okazji wpisu http://smarterpoland.pl/index.php/2011/12/kobieta-menedzer-a-szansa-na-sukces/ w komentarzu od @Analfabeta pojawiła się sugestia by przedstawić te dane na wykresie radarowym.

Zobaczmy więc jak wyglądać będą te dane na wykresie radarowym, poniżej informacja o tym które elementy są ważne do osiągnięcia sukcesu zaprezentowana w kolorach na wykresie radarowym.

Kod w programie R za pomocą którego można taki wykres wygenerować znaleźć można tutaj.

Który element został uznany za ważny a procent wskazań wykonanych przez kobiety.

Elementy uznane za ważne do osiągnięcia sukcesu w opinii mężczyzn i kobiet.

Jak wyżej, ale nie łączymy punktów linią, poprawniej ale trudniej się czyta.

Tutaj zamiast funkcji lines używamy polygon dzięki czemu mamy wypełnione ,,radary”.

Kobieta menedżer a szansa na sukces

Andrzej P. podesłał mi artykuł zatytułowany ,,Kobieta menedżer ma mniejsze szanse na awans” (artykuł tutaj). Artykuł ten jest wyjątkowo ciekawym przykładem jak nie pokazywać danych. W artykule autorka stara się nas przekonać, że kobiety menedżerki (to słowo jest już nawet w SJP) mają mniejsze szanse na awans. Przekonać ma nas o tym niezbicie pierwszy wykres.

Już nawet nie czepiam się wykresu kołowego, ani tego że jest on 3D, ani że odpowiedź która ma się najbardziej rzucać w oczy jest na czerwono. Najbardziej zdziwiony jestem, że pytanie które zostało zadane to ,,czy szanse na awans są TAKIE SAME?”. To już autorka zadecydowała że nierówność musi oznaczać faworyzowanie mężczyzn.

 

Ciekawy jest też drugi wykres prezentowany w tym artykule.

Teoretycznie z takich danych można by się dowiedzieć, które elementy są częściej wskazywane przez mężczyzn a które przez kobiety. Teoretycznie, ponieważ sposób prezentacji to uniemożliwia, trudno porównywać iloczyny długości słupków pomiędzy sobą.

Również teoretycznie można by odczytać z takich danych które elementy są uznawane za najważniejsze w sumie. Ale ponownie tylko teoretycznie, ponieważ pochyłość słupków utrudnia określenie który słupek jest dłuższy. A liczby odpowiedzi nie są podane w sumie, więc by dowiedzieć się ile osób wybrało daną odpowiedź trzeba szybko dodawać trzycyfrowe liczby.

 

Postarajmy się jednak być konstruktywni w tej krytyce. Czy można inaczej przedstawić te dane? Kod w programie R użyty do wygenerowania poniższego wykresu znajduje się tutaj.

I ten sam obrazek obrócony o 45 stopni.

Używając wykresu punktowego/rozrzutu przedstawiliśmy te same liczby, ale tym razem odczytując położenie punktów możemy porównać elementy decydujące o awansie pomiędzy sobą. Im wyżej jest kropka (dotyczy drugiego wykresu) tym częściej ten element jest wskazywany przez mężczyzn, im niżej tym częściej przez kobiety. Im bardziej na prawo jest kropka tym więcej osób w sumie uznało dany element za istotny.

 

Sugerując się komentarzami dodałem kolory. Wrzosowy i piaskowy kolor oznaczają obszary na którym jedna płeć wybiera określone elementy o ponad 20% częściej niż druga płeć. Mam nadzieję, że dzięki temu widać że niektóre elementy są preferowane przez jedną z płci.

Zmiany zamożności Polaków

Kontynuujemy analizy danych z badania Diagnoza Społeczna. Średnia pensja w Polsce rośnie szybciej nawet niż inflacja. Można więc uważać, że jest coraz lepiej.

Ten i kolejny wpis powstał ponieważ po pierwsze wyniki są ciekawe, a po drugie, ponieważ będzie okazja wprowadzić kolory w analizie gradacyjnej.

W kwestionariuszu dla gospodarstw piąte pytanie dotyczy sposobu gospodarowania dochodem, czy na wszystko wystarcza pieniędzy, czy wystarcza ale przy oszczędnym życiu, czy brakuje na coś. Będziemy poniżej porównywać odpowiedzi pomiędzy latami 2005 (kolumna “cl7″) i 2001 (kolumna “fL5″). Do porównania odpowiedzi w tych dwóch rocznikach wykorzystamy analizę gradacyjną.

Kilka linii kodu w R

i mamy następujący wykres.

Etykiety można by skrócić, ale póki są czytelne nie walczyłem z nimi. W porównaniu z rokiem 2005 w roku 2011 ubyło o około jedną trzecią osób, którym wystarcza co prawda na najtańsze jedzenie, ale nie wystarcza na inne potrzeby. Liczba osób, którym wystarcza i jeszcze oszczędzają wzrosła trzykrotnie.

Podział obowiązków w rodzinie

Dzisiaj ponownie bazujemy na danych z Diagnozy Społecznej (więcej informacji o tym zbiorze danych tutaj). W ankiecie z roku 2009 znalazło się pytanie, jaki powinien być twoim zdaniem podział obowiązków w rodzinie, w zależności od tego czy są w rodzinie dzieci i w jakim wieku (pytanie 107 kolumna ep107.1-ep107.4).

Pytanie dotyczyło w gruncie rzeczy tego, kto powinien pracować a kto nie. Z podtekstem że osoba niepracująca będzie zajmowała się domem i dziećmi.

Wyniki obrazuje poniższa tabelka, a przez resztę wpisu będziemy zastanawiać na jakim wykresie taką tabelę należy przedstawić.

W każdej kolumnie procenty grzecznie sumują się do 100%.

 

W oczy rzuca się brak symetrii, przy założeniu że ktoś powinien zrezygnować z pracy najczęściej pada na kobietę (uwaga 1: zobaczymy później jak to wygląda w rozbiciu na płeć, uwaga 2: to wyniki ankiet a nie moje opinie, feministki, proszę nie rysujcie mi lakieru na moim rowerze). Niewiele jest osób, które przy dzieciach do 6 lat model oboje rodzice pracują jest najlepszy.

Przejdźmy do wykresów. Powyżej różnych modeli podziałów obowiązków jest 6, ale w sumie interesować będą nas trzy główne: oboje rodzice na pełny etat, jeden z rodziców na część etatu, jeden z rodziców nie pracuje. Na pierwszym wykresie będziemy pokazywać zakumulowane procenty (kody w R poniżej)

 

Takie wykresy są często krytykowane ponieważ udział procentowy zielonej i fioletowej grupy ciężko porównać z uwagi na przesunięty punkt 0. Drugi częsty powód krytyki to łączenie odcinkami procentów, które sugeruje że jest jakiś trend (liniowy) w wynikach pomiędzy kategoriami.

Tak więc nawet jeżeli graficznie ten wykres mi się najbardziej podoba wypada zobaczyć jeszcze kilka innych wariantów.

Wykres paskowy, bez sugestii co do liniowości trendu.

I jeszcze jeden paskowy, ale bez skumulowania procentów

I jeszcze wykres punktowy. W teorii wykres punktowy łatwiej czytać niż powyższy, ponieważ oś OY nie jest tak szeroka.

Cztery wykresy. Podejrzewam że każdy znajdzie swojego amatora. A wracając do treści pokazywanej na tych wykresach to następnym razem wrócimy do tematu jak te proporcje zmieniają się w grupach wiekowych i płciach.

 

Co jest ważne w życiu? w zależności od wieku

Cztery dni temu (tutaj) badaliśmy jak zmieniały się wartości ważne w życiu, bazując na danych z Diagnozy Społecznej. Można jednak przypuszczać że to co jest ważne w życiu zależy od wielu czynników, ale z pewnością równiez od wieku.

Więc powtórzyliśmy analizę gradacyjną w czterech grupach wiekowych. najpierw zbadaliśmy kwartyle roku urodzenia i dało nam to cztery mniej więcej równoliczne grupy respondentów, urodzonych w latach: 1910 – 1952, 1952-1971, 1971-1987, 1987-2011.

Grupa wiekowa 1910-1952.

 

W grupie 1951-1971.

W grupie 1971-1987

W grupie 1987 – 2011

 

Z powyższych wykresów wynikają przynajmniej dwie rzeczy:

– najsilniej zmienia się system wartości ludzi w wieku 30-40 lat. Odległość krzywej od przekątnej jest największa. Analiza gradacyjna dowiodła swojej wartości w wyraźny sposób podsumowując wielkość zmian. Dla respondentów w wieku 30-40 liczą się i to coraz bardziej dzieci i udane małżeństwo.

– zmieniają się też rzeczy uznawane za ważne. W grupie osób najmłodszych wysokie miejsce zajmują pieniądze i praca, a starszych grupach i pieniądze i płacę wyprzedzają udane małżeństwo i dzieci.

 

Co jest ważne w pracy?

Dwa  dni temu pokazywaliśmy przykład analizy gradacyjnej w badaniu co jest ważne w życiu. Dziś zobaczymy co dla ankietowanych jest ważne w pracy. W latach 2007 i 2011 zadano respondentom pytanie o to co jest ważne w pracy. Podobnie jak w przypadku wartości ważnej w życiu, można było wybrać maksymalnie trzy cechy dorej pracy (z listy: Brak napięć i stresów, Duza samodzielnosc, Możliwość rozwoju osobistego, Praca zgodna z umiejetnosciami, Możliwość szybkiego awansowania, Stabilnosc zatrudnienia, Dogodne godziny pracy, Możliwość wykonywania pracy w domu, Dlugi urlop, Zajecie powazane przez ludzi, Odpowiednia płaca, Inne czynniki).

Używając tych samych technik co ostatnio, sprawdzimy czy oczekiwania w stosunku do pracy sie zmienily.

 

Po prawej stronie przedstawiono dla każdej cechy dotyczącej pracy informacje jaka frakcja osób uznała tę cechę za ważną. Po lewej stronie mamy wynik jednowymiarowej analizy gradacyjnej.

Zauważmy na początek że odległość tej krzywej od przekątnej, jest dużo większa niz w przypadku pytan o to co ważne w życiu. Wydaje sie to zgodne z intuicja ze pogląd dotyczący wartości waznych w zyciu zmienia sie wolniej niz dotyczacy wartosci waznych w pracy.

Największe zmiany dotyczyły wzrostu liczby osob uwazajacych ze wazna jest stabilnosc zatrudnienia (z 11.8% do 19% a więc zmiana o ponad 60%), duża samodzielnośc w pracy, brak napiec i stresow. Mniej osób za najważniejsze wymienia odpowiednia place czy prace zgodna z umiejętnościami. Mam nadzieje ze jest to zwiazane z tym ze podstawowe potrzeby zwiazane z wystarczająca placa i zatrudnieniem w odpowiednim miejscu zostaly zaspokojone i teraz osoby mogą sie skupic na wyzszych potrzebach. Moze to tez byc związane z rosnacym wiekiem respondentów, sa o 4 lata starsi moga juz cenic inne rzeczy.

Warto zrobic taka analize w podziale na grupy wiekowe, moze wiec wrocimy do tego tematu nastepnym razem.

 

Co jest w życiu ważne?

Ostatnio moi magistranci na mini-seminarium prezentowali jednowymiarową analizę gradacyjną. Służyć może ona między innymi do porównania czy pomiędzy dwoma wektorami obserwacji zmieniła się struktura odpowiedzi. Wygląda to na ciekawą metodę, więc warto ją zaimplementować w R i zobaczyć jak dziala.

Kilka dni temu pisaliśmy o zbiorze Diagnoza Społeczna (http://smarterpoland.pl/index.php/2011/10/diagnoza-spoleczna-2011/), już dołączony do repozytorium. Wykorzystamy go na potrzeby badania analizy gradacyjnej.

W latach 2005 i 2009 w Diagnozie Społecznej ankieterzy pytali respondentów o wskazanie wartości ważnych w ich życiu (zmienne cp2.1-cp2.14 i ep2.1-ep2.14) . Badany mógł wybrać maksymalnie trzy odpowiedzi ze zbioru 14 możliwych (PIENIADZE, DZIECI, UDANE MALZENSTWO, PRACA, PRZYJACIELE, OPATRZNOSC, BOG, POGODA DUCHA, OPTYMIZM, UCZCIWOŚĆ, ŻYCZLIWOŚĆ I SZACUNEK OTOCZENIA, WOLNOSC, SWOBODA, ZDROWIE, WYKSZTALCENIE, SILNY CHARAKTER, INNE). Wykorzystamy analizę gradacyjną by sprawdzić czy zmieniła się struktura wartości w badanej grupie respondentów w przeciągu czterech lat.

Zaczniemy od analizy dwóch czternastoelementowych wektorów. Każdy wektor określi jaka frakcja osób uznała daną wartość za ważną w ich życiu. Porównamy oba wektory, by sprawdzić które wartości zyskały, a które straciły na znaczeniu pomiędzy rokiem 2009 a 2005.

 

 

Kod generujący powyższy rysunek znajduje się poniżej. Po lewej prezentowane są wyniki analizy gradacyjnej, po prawej zwykły wykres rozrzutu. Oba wykresy prezentują te same dane.

Zacznijmy od prawego wykresu. Frakcje osób uznających daną wartośc za ważną unormowano tak, by po zsumowaniu wszystkich wartości otrzymać 1. Osobno dla roku 2005 osobno dla 2009. Każdy punkt opisuje jedną wartość. Współrzędne punktu odpowiadają unormowanej frakcji osób uznających tą wartość za ważną w roku 2005 i 2009. Dorysowano przekątną, dzięki temu punkty pod przekątną odpowiadają wartościom których znaczenie spadło do roku 2009, punkty nad odpowiadają wartosciom których znaczenie wzrosło.

Po lewej stronie przedstawiono te frakcje w sposób skumulowany. Kolejność odpowiada procentowej zmianie ważności w stosunku do roku 2009. Na początku wykresu, przy punkcie 0,0 znajdują się wartości, które zyskały na znaczeniu. Pod koniec wartości, ktore stracily na znaczeniu. Długość kroku odpowiada frakcji osob uznających daną wartość za ważną. Odległość wyrysowanej łamanej od przekątnej obrazuje jak bardzo zmieniła się struktura wartości. W tym przypadku łamana jest blisko przekątnej, więc ludzie nie zmienili istotnie swojego systemu wartości. Dzieci i zdrowie zyskały na ważności. Pieniądze i praca straciły, choć w obu przypadkach nie są to duże zmiany.

 

Diagnoza Społeczna 2011

Diagnoza społeczna to badanie prowadzone przez radę monitoringu społecznego od roku 2000. Więcej informacji o tym badaniu można znaleźć na stronie http://diagnoza.com/. Jest to badanie panelowe, dane zbierane są co 2-3 lata. Niedawno pojawiły się dane  z edycji 2011. Badane jest bardzo wiele parametrów, można naprawdę prześledzić co ciekawego działo się w Polsce przez ostatnie 11 lat. Te dane nadają się świetnie na ćwiczenia ze statystycznej analizy danych dla studentów i nie tylko. Tydzień temu Paweł Teisseyre z IPIPANu używał tego zbioru danych do demonstrowania regularyzowanej wersji regresji logistycznej w R na WZUR 4.0.

Dane są publicznie dostępne. Niestety na stronie projektu dane są w postaci plików programu SPSS. Na potrzeby tego bloga zostały przekonwertowane do formatu programu R.

Katalog z danymi znajduje się tutaj.

Dane podzielone są na dwa zbiory, z opisem gospodarstw domowych i opisem osób o wieku ponad 16 lat zamieszkujących w tych gospodarstwach.

Dane o gospodarstwach można ściągnąć w postaci pliku RData, pliku w formacie csv oraz pliku z opisami kolumn, w zbiorze danych jest 20655 wierszy i 1820 kolumn.

Dane o osobach  można ściągnąć w postaci pliku RData, pliku w formacie csv oraz pliku z opisami kolumn, w zbiorze danych jest 65373 wierszy i 2427 kolumn.

Skrypt wczytujący dane dostępny jest tutaj.

Na stronach projektu znaleźć można obszerne raporty które na kilkuset stronach prezentują tysiące wniosków i dziesiątki rysunków. Postaram się w najbliższej przyszłości umieścić kilka celowanych wizualizacji tak by na jednym rysunku upakować całą historię. Jeżeli studenci coś ciekawego na tym zbiorze danych zrobią to też dodam do bloga.

 

Cytowanie:   Rada Monitoringu Społecznego (2011). Diagnoza społeczna: zintegrowana baza danych. www.diagnoza.com 20-X-2011;

 

Zmiany zamożności Polaków na kolorowo

Trzy dni temu pisaliśmy o tym jak zmienia się zamożność gospodarstw badanych w ramach Diagnozy Społecznej (ponad 20 tys gospodarstw).
Generalny wniosek jest taki, że coraz więcej gospodarstw domowych poprawiło swój standard przez ostatnie 6 lat (porównywaliśmy wyniki z lat 2005 i 2011). Zobaczmy jak ta sytuacja wygląda w rożnych województwach.
Na poniższych wykresach wykonamy analizę gradacyjną, kolorami zaznaczając wyniki różnych województw.


Aby było czytelniej wybraliśmy pięć województw, dla których wyniki były ciekawe. Są to województwa Zachodni-pomorskie, Mazowieckie, Dolnośląskie, Lubuskie i Świętokrzyskie. Etykiety zamiast przy punktach zostały umieszczone w prawej dolnej legendzie. Jak czytać te wykresy? Ponieważ odpowiedzi są w skali uporządkowanej możemy interpretować bezpośrednio położenie k-tego punktu,  anie tylko ścieżkę do niego prowadzącą (jak na poprzednich przykładach).
Etykieta 5 oznacza, że wystarcza tylko na najtańsze jedzenie, ubranie, opłaty, kredyt. Ponieważ na wykresie współrzędne punktów to skumulowane częstości dla danego i niższych poziomów, więc współrzędne punktów z etykietą 5 oznaczają frakcję osób, którym starcza tylko na najtańsze jedzenie, kredyt, ubrania lub i na to nie. W województwie zachodnio-pomorskim w roku 2005 takich osób było około 40% (współrzędna OX brązowej 5), ale w roku 2011 było już takich osób niewiele ponad 20%. Praktycznie w każdym z narysowanych województw współrzędna OY dla cyfry 7 to 80%, co oznacza, że w roku 2011 80% gospodarstw w tych województwach deklarowało, że muszą żyć oszczędnie, bardzo oszczędnie a czasem i to nie wystarcza. W roku 2005 procent takich deklaracji był wyższy w każdym z województw, najwięcej spadł w Świętokrzyskim z około 90%.

Im dalej punkt od przekątnej tym większa zmiana do tego poziomu. Przykładowo różowa 6 ilustruje, że w województwie Lubuskim osób które żyją bardzo oszczędnie a i to czasem nie starcza było ponad 60% w roku 2005 a w 6 lat później było ich już tylko około 40%.

Mniejsze zmiany dotknęły województw Mazowieckiego i Dolnośląskiego.

Na zakończenie wykres dla wszystkich województw, dosyć gęsty, 16 krzywych zachodzi na sobie co utrudnia odcyfrowywanie wyników. W każdym województwie krzywa jest w większości pod przekątną co znaczy, że jest raczej lepiej niż przed 6 laty.