Tym wpisem mam nadzieję, że zakończę pokaźną serię wizualizacji danych z Diagnozy Społecznej i znajdziemy kolejne ciekawe dane.
Jakiś czas temu pojawiła się w komentarzach sugestia, by sprawdzić jak na dochody wpływa miejsce zmieszkania, wykształcenie, zawód, stan cywilny itp. Nie każdą z tych rzeczy łatwo sprawdzić na danych z Diagnozy, np. frakcja osób, które podały zawód jest dosyć nieduża. Ograniczymy się więc do zależności, które możemy badać na dużych grupach ankietowanych
Widzieliśmy już, że dochody zależą istotnie od wieku i od płci. Aby usunąć wpływ tych zmiennych poniżej wykonamy analizą tylko dla pracujących mężczyzn w wieku od 30 do 45 lat.
Zaczniemy od związku miejsca zamieszkania z dochodami. Prosta dwukierunkowa analiza wariancji pokazuje, że dochody zależą od województwa i od wielkości miasta i również, że ta zależność nie jest addytywna. Tzn. wpływ/efekt wielkości miasta jest różnych w różnych województwach. Wyników analizy wariancji nie zamieszczam ale można ją odtworzyć z skryptu w R. Co ciekawe otrzymujemy podobne wyniki bez względu na to czy analizujemy dochody zlogarytmowane czy nie, czy użycjemy transformacji Boxa Coxa czy nie.
Wielkość miasta w którym pracuje akietowany podzielono na trzy grupy: 'wieś’, do 200 tys’ i 'powyżej 200tys’. W oryginalnych danych tych grup jest więcej, ale połączone zostały te najbardziej do siebie podobne w celu otrzymania możliwie czytelnych wykresów. Województw jest 16, w czterech z nich nie ma miast o wielkości powyżej 200tys mieszkańców, stąd brakujące elementy ponizej.
Na poniższym wykresie zaznaczono dla każdego województwa rozkład dochodów netto w rozbiciu na wielkość miasta zamieszkania. Kolory odpowiadają wielkości miasta. Jasny/blady pasek odpowiada rozpiętości średnich dochodów 50% zarabiających osób z danej lokalizacji, lewy brzeg odpowiada dolnemu kwartylowi, prawy brzeg górnemu kwartylowi. Czyli możemy potraktować ten pasek jako reprezentację najbardziej typowych dochodów. (Uwaga! oś logarytmiczna). Kropką zaznaczono medianę dochodów a krzyżykiem średnią. Średnia potrafi być znacznie wyższa niż mediana, ale tak to już jest z dochodami. Po prawej stronie wykresu podano dla każdego województwa informację o liczbie osób na podstawie której konstruowany jest ten wykres (odpowiednio na wsi, małym mieście, dużym mieście).
Co ciekawego tu widać? Zazwyczaj im większe miasto tym wyższe dochody. Stolica znacząco odstaje od pozostałych lokalizacji. Ale są też wyjątki od tej reguły. W województwie Podlaskim duże miasto (czyli Białystok) charakteryzuje się mniejszymi dochodami niż otaczające go małe miasta i wsie (region żyje z turystyki). W innych województwach najniższe dochody mają osoby mieszkające na wsi.
Poniżej przedstawiamy te same dane ale zamieniając kolejność zmiennych, tym razem pokazemy obok siebie województwa. To samo województwo jest oznaczone tym samym kolorem, a kolejność odpowiada średniemu dochodowi. W grupie dużych i średnich miast najwyższe dochody mają osoby mieszkające w województwie Mazowieckim. Ale juz w kategori wieś najlepiej zarabiają mieszkańcy Pomorza. Przy czym średnia bardzo odstaje od mediany, więc nie wszystkim mieszkańcom tego województwa się tak świetnie powodzi.
Jako uzupełnianie tematu poniżej przedstawiam zależności pomiędzy stanem cywilnym a dochodami oraz pomiędzy liczbą lat edukacji a dochodami. Miło zobaczyć piękną korelacje pomiędzy liczbą lat nauki a dochodami.
Zabrakło chyba linku do skryptów w R, chociaż oczywiście czytając wcześniejszy wpis o diagnozie społecznej można do niego dotrzeć 😉
A nie, jednak brakuje tutaj skryptów http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/Diagnoza2011/zarobki/
O dotarłem do katalogu ale dopiero teraz zauważyłem, ze są tam same grafiki.
Dodałem do wymienionego katalogu plik z kodem R generującym powyższe wykresy.
Link do pliku z kodem R to http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/Diagnoza2011/zarobki/zarobki3.r
Jest tam jeden miły dla oka trick, mianowicie na skróty można dodać kanał alpha do koloru używając funkcji paste. Tz paste(„#FF0000”, „D0″, sep=””) wyprodukuje półprzezroczysty czerwony.
Ten pierwszy wykres, pogrupowany województwami, wygląda zupełnie jak mapa polityczna Polski. Hahaha…
Przemek mała uwaga o wyjątku: „W województwie Podlaskim duże miasto (czyli Białystok) charakteryzuje się mniejszymi dochodami niż otaczające go małe miasta i wsie (region żyje z turystyki).” Pewnie turystyka jest istotna, ale może znaczenie ma fakt, że woj. podlaskie jest mlecznym zagłębiem Polski i spora część mieszkańców wsi ma niezłe dochody dzięki mleku. Jak zrobisz mapkę cen mleka (w skupie nie w sklepie) to podlaskie od bardzo dawna jest liderem. Mediana dla wsi oprócz podlaskiego tylko w śląskim i pomorskim jest tak wysoka. Pozdrawiam, świetny blog!
Bardziej by się przydał izolowany wpływ liczby lat nauki od stażu pracy w firmie, który to staż w mojej ocenie silniej koreluje z dochodami.
@portal statystyczny, nie ma sprawy, zrób korektę na liczbę lat nauki, chętnie umeiszczę takie wyniki na blogu.