Diagnoza Społeczna 2013 a co jest dla nas ważniejsze w życiu?

Diagnoza Społeczna to bardzo ciekawy zbiór danych, przykład dużego badania panelowego prowadzanego od roku 2000 (do dziś 7 edycji). Cały zbiór danych można pobrać ze strony diagnoza.com, ale niestety tylko w postaci plików SPSSowych sav.

Skonwertowałem zbiór danych z edycjami 2000-2013 do formatu R i umieściłem na GitHubie (tutaj: https://github.com/pbiecek/Diagnoza).

Osoby korzystające z R mogą z tego zbioru korzystać zainstalowawszy pakiet Diagnoza z Githuba, czyli wpisując poniższe trzy linijki.

library(devtools)
install_github("pbiecek/Diagnoza")
library(Diagnoza)

Skoro już go zainstalowaliśmy to zróbmy coś z tymi danymi.

W badaniu z roku 2013 znalazło się ciekawe pytanie 'Co jest według Pana ważniejsze w życiu?’ (fp29) z możliwymi odpowiedziami:

  • przyjemności, dostatek, brak stresu,
  • osiąganie ważnych celów mimo trudności, bólu i wyrzeczeń

Czy ciekawi Was jak odpowiedzi na to pytanie różni się w zależności od płci i wieku?
Mnie interesowało, więc szast prast i mamy wykres.

Wykres zgodny ze stereotypami, choć różnice w procentach nie są dramatyczne. Uogólnianie, że młodzi mężczyźni, to a starsze kobiety tamto, to zbytnie uproszczenie, ale pewien trend jest widoczny.

Ale najpiękniejsze jest to, że do policzenia ważonych średnich (w Diagnozie dane są ważone) i narysowania tego wykresu wystarczą cztery linijki.

library(dplyr)
library(scales)
 
agregat <- 
  osoby[,c("fp29", "PLEC", "WAGA_2013_OSOBY", "WIEK6_2013")] %>% 
  group_by(fp29, PLEC, WIEK6_2013) %>%
  summarise(waga = sum(WAGA_2013_OSOBY, na.rm=TRUE)) %>%
  na.omit()
 
ggplot(agregat, aes(x=WIEK6_2013, y=waga, fill=fp29)) + 
  geom_bar(stat="identity", position="fill") + facet_wrap(~PLEC) +
  theme(legend.position="top") + 
  scale_fill_manual(name="Co jest według Pana ważniejsze w życiu?", 
        values=c("gold3", "blue3")) +
  scale_y_continuous(labels = percent) +
  ylab("Procent osób") + xlab("Wiek")

Udanej zabawy z tym zbiorem danych.
Zbiór danych z ankietami osobowymi to 75 tys wierszy i 3000 kolumn (cech). Dla gospodarstw domowych wymiary to 23800 x 2161.

Z czym koreluje wykształcenie a dwuwymiarowa analiza gradacyjna

Dwa tygodnie temu pisałem po raz pierwszy o analizie gradacyjnej. Więcej o jednowymiarowej analizie gradacyjnej znaleźć można tutaj. W międzyczasie magistranci przedstawiają kolejne warianty tej analizy. Dziś na przykładach pokażemy dwuwymiarową analizę gradacyjną.

Przepis:
– weź dwie zmienne jakościowe.
– dla każdej grupy pierwszej zmiennej jakościowej wykonaj jednowymiarową analizę gradacyjną drugiej zmiennej jakościowej, porównując rozkład w grupie versus rozkład brzegowy.

Kod do wykonania dwuwymiarowej analizy gradacyjnej znajduje się poniżej

# funkcja pomocnicza, rysuje dwuwymiarowa analizę gradacyjna na jednym panelu
plotGradeStat2D <- function(zmienna1, zmienna2, osX = "", osY = "", cex.text=0.8, tekst=TRUE) {
  tab    <- table(factor(zmienna1),factor(zmienna2))
  tabSum <- addmargins(tab, 2)
  tabProp<- prop.table(tabSum, 2)
  tabCS  <- apply(tabProp, 2, cumsum)
 
  kolor  <- brewer.pal(ncol(tab),"Set3")
  plot(c(0,1),c(0,1),type="n",pch=19,xlab=osX,ylab=osY)
  abline(0,1,col="grey")
  abline(h=seq(0,1,0.2),col="grey95",lty=3)
  abline(v=seq(0,1,0.2),col="grey95",lty=3)
  for (i in 1:ncol(tab)) {
    points(c(0,tabCS[,"Sum"]), c(0,tabCS[,i]), type="b", pch=19, col=kolor[i])
  }
  legend("topleft", colnames(tab), col=kolor, pch=10, lwd=3,bty="n")
 
  par(xpd=NA)
  if (tekst) 
    text(tabCS[,"Sum"], apply(tabCS,1,min),rownames(tabCS), srt=-45, adj=c(0,0),cex=cex.text, col="black")
  par(xpd=F)
}
# funkcja wlasciwa, rysuje dwa panele, zamieniajac zmienne miejscami na osiach
plotGradeStat2D2  <- function(zmienna1, zmienna2, osX="", osX1=osX, osX2=osX, osY="", osY1=osY, osY2=osY, ...) {
   par(mfrow=c(1,2))
   par(xpd=F)
   plotGradeStat2D(zmienna1, zmienna2, osX=osX1, osY=osY1, ...)
   plotGradeStat2D(zmienna2, zmienna1, osX=osX2, osY=osY2, ...)
}

Wykorzystamy tę analizę by zbadać zależność pomiędzy wykształceniem respondenta (zmienna jakościowa: podstawowe, zasadnicze, średnie, wyższe) a trzema innymi zmiennymi jakościowymi: pytaniem czy przed 1989 żyło się lepiej, pytaniem czy denerwują respondenta decyzje władz, pytaniem o wykształcenie ojca.

Poniższe wykresy umieszczane są jako obiekty SVG. Jeżeli się nie wyświetlają to odpowiadające im pliki png znaleźć można w tym katalogu.

Wykształcenie ojca gdy ankietowany miał 16 lat a wykształcenie ankietowanego.

Panel lewy od prawego różni się kolejnością zmiennych. Im bliżej krzywa opisująca wybraną grupę przekątnej narysowanej na szaro, tym mniejsza różnica w odpowiedziach tej grupy respondentów a odpowiedziami wszystkich respondentów. W przypadku powyższego wykresu pomiędzy grupami są duże różnice. Ewidentnie wykształcenie ojca ankietowanego i ankietowanego jest silnie skorelowane.
Wśród osób o wykształceniu podstawowym i niższym 80% osób ma ojca również o wykształceniu podstawowym lub niższym. Wśród osób o wykształceniu wyższym 20% ma ojca o wykształceniu podstawowym lub niższym. Tak więc zależność jest wyraźna i silna.

Zauważmy ile informacji możemy z powyższych wykresów odczytać. Na osi OX przedstawione są rozkłady brzegowe raz jednej raz drugiej zmiennej. Możemy więc porównując wartości na osi OX powiedzieć, że w pokoleniu rodzicielskim (brzmi to strasznie, ale nie możemy napisać w pokoleniu poprzednim, ponieważ nie mamy reprezentantów osób bezdzietnych) ponad 40% osób miało wykształcenie podstawowe i niższe, w pokoleniu ankietowanych ta frakcja spadła ponad dwukrotnie do 20%. Możliwości edukacyjne są więc większe.

Kolejny wykres dotyczy wykształcenia a odpowiedzi na pytanie kiedy żyło się lepiej, czy przed 1989 czy teraz.

Około 35% odpowiedzi było że kiedyś żyło się łatwiej, 20% że teraz, 25% że ankietowany jest za młody i reszta że trudno powiedzieć. Jest zależność pomiędzy wykształceniem a udzielonymi odpowiedziami, osoby o wykształceniu wyższym częściej niż średnia uważa że teraz życie się lepiej. Osoby o wykształceniu podstawowym częściej niż średnia uważają że żyło im się lepiej przed 1989.

Ostatnie porównanie dotyczy pytania czy jest się i jak często denerwowanym prze z decyzje władz. Tym razem pomiędzy grupami osób o różnym wykształceniu odpowiedzi kształtują się podobnie.

Zależność jest nie duża, osoby o wykształceniu podstawowym trochę rzadziej niż średnia denerwują się na decyzje władz. Czyżby to ignorancja dawała spokój? A może to inna mądrość pozwala na nie przejmowanie się rzeczami na które nie czuje się wpływu?

Polskie ogonki a iconv()

Napisał do mnie maila Krzysztof T. z informacją, że strona kodowa windows-1250, którą zakodowałem polskie znaczki w zbiorze danych Diagnoza Społeczna źle wygląda pod Linuxami.

Zmieniłem więc pliki z danymi usuwając znaki diaktrytyczne. Można też było zmienić kodowanie na UTF-8, ale usunięcie ogonków gwarantuje zgodność z każdym systemem operacyjnym.

Do zmiany kodowania w programie R można użyć funkcji iconv(), która wykorzystuje specyficzne dla systemu narzędzia do konwersji. Listę obsługiwanych stron kodowych wyświetla funkcja iconvlist().

Poniżej przykładowy kod R który usuwa znaki diaktrytyczne ze zbioru danych diagnozaOsoby2011. Podanie argumentu to=”UTF-8″ spowodowałoby konwersje do formatu UTF-8. W systemie Windows od wersji R 2.11 aby usunąć ogonki należy podać argument to=”ASCII//TRANSLIT”, pod innymi systemami wystarczy to=”ASCII”.

 

# konwertujemy nazwy kolumn
colnames(diagnozaOsoby2011) <- iconv(colnames(diagnozaOsoby2011), from="windows-1250", to="ASCII//TRANSLIT")
 
# konwertujemy nazwy poziomów w zmiennych jakościowych
for (i in 1:ncol(diagnozaOsoby2011)) 
   if ("factor" %in% class(diagnozaOsoby2011[,i])) 
      levels(diagnozaOsoby2011[,i]) <- iconv(levels(diagnozaOsoby2011[,i]), from="windows-1250", to="ASCII//TRANSLIT")

Gdzie można zarobić? Kto może zarobić?

Tym wpisem mam nadzieję, że zakończę pokaźną serię wizualizacji danych z Diagnozy Społecznej i znajdziemy kolejne ciekawe dane.

Jakiś czas temu pojawiła się w komentarzach sugestia, by sprawdzić jak na dochody wpływa miejsce zmieszkania, wykształcenie, zawód, stan cywilny itp. Nie każdą z tych rzeczy łatwo sprawdzić na danych z Diagnozy, np. frakcja osób, które podały zawód jest dosyć nieduża. Ograniczymy się więc do zależności, które możemy badać na dużych grupach ankietowanych

Widzieliśmy już, że dochody zależą istotnie od wieku i od płci. Aby usunąć wpływ tych zmiennych poniżej wykonamy analizą tylko dla pracujących mężczyzn w wieku od 30 do 45 lat.

Zaczniemy od związku miejsca zamieszkania z dochodami. Prosta dwukierunkowa analiza wariancji pokazuje, że dochody zależą od województwa i od wielkości miasta i również, że ta zależność nie jest addytywna. Tzn. wpływ/efekt wielkości miasta jest różnych w różnych województwach. Wyników analizy wariancji nie zamieszczam ale można ją odtworzyć z skryptu w R. Co ciekawe otrzymujemy podobne wyniki bez względu na to czy analizujemy dochody zlogarytmowane czy nie, czy użycjemy transformacji Boxa Coxa czy nie.

Wielkość miasta w którym pracuje akietowany podzielono na trzy grupy: 'wieś’, do 200 tys’ i 'powyżej 200tys’. W oryginalnych danych tych grup jest więcej, ale połączone zostały te najbardziej do siebie podobne w celu otrzymania możliwie czytelnych wykresów. Województw jest 16, w czterech z nich nie ma miast o wielkości powyżej 200tys mieszkańców, stąd brakujące elementy ponizej.

Na poniższym wykresie zaznaczono dla każdego województwa rozkład dochodów netto w rozbiciu na wielkość miasta zamieszkania. Kolory odpowiadają wielkości miasta. Jasny/blady pasek odpowiada rozpiętości średnich dochodów 50% zarabiających osób z danej lokalizacji, lewy brzeg odpowiada dolnemu kwartylowi, prawy brzeg górnemu kwartylowi. Czyli możemy potraktować ten pasek jako reprezentację najbardziej typowych dochodów. (Uwaga! oś logarytmiczna). Kropką zaznaczono medianę dochodów a krzyżykiem średnią. Średnia potrafi być znacznie wyższa niż mediana, ale tak to już jest z dochodami. Po prawej stronie wykresu podano dla każdego województwa informację o liczbie osób na podstawie której konstruowany jest ten wykres (odpowiednio na wsi, małym mieście, dużym mieście).

Co ciekawego tu widać? Zazwyczaj im większe miasto tym wyższe dochody. Stolica znacząco odstaje od pozostałych lokalizacji. Ale są też wyjątki od tej reguły. W województwie Podlaskim duże miasto (czyli Białystok) charakteryzuje się mniejszymi dochodami niż otaczające go małe miasta i wsie (region żyje z turystyki). W innych województwach najniższe dochody mają osoby mieszkające na wsi.

 

Poniżej przedstawiamy te same dane ale zamieniając kolejność zmiennych, tym razem pokazemy obok siebie województwa. To samo województwo jest oznaczone tym samym kolorem, a kolejność odpowiada średniemu dochodowi. W grupie dużych i średnich miast najwyższe dochody mają osoby mieszkające w województwie Mazowieckim. Ale juz  w kategori wieś najlepiej zarabiają mieszkańcy Pomorza. Przy czym średnia bardzo odstaje od mediany, więc nie wszystkim mieszkańcom tego województwa się tak świetnie powodzi.

 

Jako uzupełnianie tematu poniżej przedstawiam zależności pomiędzy stanem cywilnym a dochodami oraz pomiędzy liczbą lat edukacji a dochodami. Miło zobaczyć piękną korelacje pomiędzy liczbą lat nauki a dochodami.

 

Kto i kiedy się uczy

Dzisiaj pojawiło się interesujące pytanie/komentarz do poprzedniego wpisu, mianowicie czy i ile uczą się Polacy po trzydziestce. Czy jest tak, że uczymy się tylko do pełnoletności a później z rozpędu jeszcze przez studia, czy też nieustannie rozwijamy swoje umiejętności.

Pytanie, na które będę chciał poniżej odpowiedzieć to czy i ile uczymy się. Będziemy porównywać jak wygląda ilość czasu poświęcanego na dodatkową edukację teraz w porównaniu z poprzednią dekadą. Zobaczymy jak kontynuacja edukcji zależy od wieku oraz od juz posiadanego bagażu lat eukacji.
Odpowiedź na powyższe pytania postaram się zmieścić na niewielkiej liczbie ,,upakowanych” wykresów. Może więc trudno będzie je odczytać na pierwszy rzut oka, ale mam nadzieje że jak już się to uda to okażą się one informatywne.

Tak więc poniżej kilka trudniejszych wykresów.

Kod w programie R, użyty do wygenerowania poniższych wykresów znajduje się w katalogu tutaj. W tym katalogu znajdują się rownież poniższe wykresy w formacie SVG. Ponieważ niektóre pliki mają ponad 600kB wolałem do wpisu podlinkowac znacznie lżejsze pliki PNG.

Przejdźmy do analiz. Poniżej przedstawione są dwie serie wykresów. Jedne wykorzystują paletę kolorów – odcieni fioletu, drugie odcieni koloru ceglastego. Oba komplety wykresów przedstawiają te same dane ale w trochę innej formie.

Należy zaznaczyć, że liczba lat edukacji jest deklarowana przez ankietowanego, a ankieter tej liczby nie sprawdza. Ankietowany mógł nie pamiętać co odpowiedział dwa lata wcześniej, nie zawsze też ze zmienioną liczbą lat edukacji idzie prawdziwe szkolenie.

Na poniższym wykresie przedstawiamy liczbę lat edukacji respondentów w latach 2005 i 2003. Wszystkich respondentów podzieliliśmy na 16 grup wiekowych, każda grupa o rozpiętości 5 lat. Na osi OX zaznaczono, która grupa jest aktualnie opisywana. Wiek tu podany dotyczy roku 2003. Dla każdej grupy na górze wykresu zaznaczono ile średnio lat edukacji przybyło osobom w tej grupie wiekowej po dwóch latach badania. Czyli przykładowo, w najmłodszej grupie wiekowej, osób od 15 do 20 lat, deklarowana liczba lat nauki w roku 2005 wzrosła o 1.4 w stosunku do roku 2003. Jeżeli spojrzymy na grupę osób od 21 do 25 lat to liczba lat edukacji wzrosła o dwa razy mniej, czyli 0.71 roku. Długość czerwonej kreski nad liczbą jest proporcjonalna do tej liczby. Umożliwia to szybką orientację w jakim wieku Polacy najwięcej się uczą. Największy przyrost liczby lat edukacji obserwujemy w grupie osób 15-20 lat. Ale osoby starsze też się uczą. Przykładowo w grupie 40-45 lat przybyło przez 2 lata średnio 0.14 lat edukacji. Pytanie oczywiście czy edukowali się dodatkowo Ci już z dużym stażem, czy też raczej osoby o krótkiej historii edukacji uzupełniały swoją wiedzę. Na to pytanie odpowie pozostała część wykresu.

Dla każdej grupy wiekowej przedstawiono za pomocą wykresu pudełkowego rozkład liczby lat nauki w roku 2003. Z tego wykresu można odczytać ile interesująca nas grupa miała lat nauki na koncie w roku 2003. Z każdego wykresu pudełkowego wychodzi kolekcja kresek na prawo do góry. Każda z tych kresek dotyczy podgrupy osób o zadanej liczbie lat edukacji i zadanym wieku. Przykładowo najgrubsza, cała ceglana, kreska w lewym dolnym brzegu dotyczy osób będących w grupie wiekowej 15-20 lat i mających w roku 2003 na koncie 9 lat edukacji.

Długość tej kreski i kolor opisuje ile osób kontynuowało naukę i jak długo. Grubość kreski odpowiada liczbie osób w danej grupie, jest ona proporcjonalna do logarytmu dwójkowego z liczby osób. Ale na potrzeby tego opisu wystarczy zauważyć, że im grubsza kreska tym więcej osób było w tej grupie.  Mamy wieć grupę 15-20 latków, którzy w roku 2003 mieli 9 lat edukacji, zapytamy się teraz ilu z nich kontynuowało edukację i przez jak długo. A dokładniej zapytamy się jak wyglądały w tej grupe kwantyle liczby lat edukacji rzędu 0.25, 0.5, 0.75 i 0.9 po dwóch latach. Im ciemniejszy kolor tym niższy kwantyl, czyli więcej osób uczyło sie przynajmniej tyle lat. Ponieważ liczbę lat edukacji podawano jako liczbę całkowitą, to każda z tych kresek może mieć długość 0, 1 lub 2. Wspomniana już gruba ceglasta kreska ma długość 2, co oznacza, że ponad 3/4 osób (ponieważ kwantyl 0.25 oznaczany jest ciemnym bordowym) kontynuowało edukacje przez 2 lata i w roku 2005 miało już na koncie 11 lat edukacji. Poniżej tek kreski jest inna dwukolorowa kreska, która odpowiada stwierdzeniu że ponad 1/2 osób startujących w roku 2003 z 8 latami edukcji kontynuowała edukację przez 2 lata, a ponad 3/4 z nich przez przynajmniej jeden rok.

Generalnie im ciemniejsza kreska tym więcej osób a im dłuższa to tym dłuzej się eudkowało. Pojedyncze kropki czerone oznaczają, że w danej grupie nikt nie zdecydował się na kontynuowanie nauki.

Co ciekawego widać? Np. że w grupie 30-35 lat są i osoby które uzupełniają edukację o studia wyższe i podyplomowe (15 i więcej lat edukacji), jak równiez osoby, które kończa szkołę średnią. W grupach osób starszych studentów jest już mniej, ale cały czas jakiś procent osób (ponad 10% – kolor beżowy) uzupełnia edukację najpewniej o szkołę średnią.

Zobaczmy teraz podobny wykres pokazujący lata 2009-2011.

Jeżeli otworzyć oba powyższe obrazki na dwóch sąsiednich zakładkach to łątwiej zobaczyć czym się różnią. Generalny wniosek jest taki, że jest więcej i też ciemniejszych kresek, więc w ostatnich dwóch latach więcej osób edukowało się (lub przynajmniej tak twierdziło w badaniu). Nawet w grupie osób starszych, powyżej 75 roku życia obserwuje się znaczny (ponad 25%) odsetek osób uzupełniających edukację, szczególnie podstawową.

Również porównując czerwone paski i procenty na górze wykresu widzimy że średni przyrosk liczby lat edukacji jest większy pomiędzy latami 2009-2011 niż 2005-2003.

 

Problem z powyższymi wykresami jest taki, że poniewa lata edukacji są dyskretne, również kwantyle sa dyskretne i nie widać gładkiego rozkładu. Poniżej więc przedstawiono długością kreski coś innego, minowicie frakcję osób, które edukowały się przynajmniej określoną liczbę lat. Jako przykład wybierzmy grupę osób w wieku 15-20 lat, które w roku 2003 miały na koncie 13 lat edukcji (kreska najbardziej na lewo a później do góry). Frakcje osób można odczytać porównując długość tego odcina z odcinkiem od wykresu pudełkowego o najbliższej szarej pionowej linii. W rozważanej grupie mniej więcej 1/3 tego odcinka pomalowana jest na kolor średnio fioletowy, kolejna jedna trzecia na kolor jasno fioletowy a pozostała 1/3 nie jest pomalowana. Oznacza to, że mniej więcej (dokładne liczby trudno odczytać bez skali, nie są jednak tak bardzo ważne) 33% osób z w wieku 15-20 lat , które miały już na koncie 13 lat edukacji kontynuowały edukację przez kolejny rok, 33% osob kontnuowała edukację przez dwa lata, a reszta nie kontynuowała edukacji. Porównując długości kresek w każdej z grup wiekowych łatwiej nam ustalić kto w danej grupie wiekowej kontunuował edukację i jak długo.

I wkres dla lat 2009-2011

 

Zdaję sobie sprawę, że wykresy wymagają trochę koncentracji by je odczytać. Który z nich jest czytelniejszy i lepiej nadaje się do przedstawiania kontynuacji eduakcji (ceglasty czy fioletowy)? Czy te wykresy sa jakkolwiek czytelne? Czy może macie pomysł jak inaczej przedstawić tą samą informację by była czytelniejsza? Czy jest w tych wynikach coś naprawdę zaskakującego?

 

R, Kair, Cairo, wiek a liczba lat nauki

Dziś będzie o wielu tematach jednocześnie.
Po pierwsze przeglądając materiały z konferencji useR znalazłem informacje o pakiecie Cairo. Wstyd, że o tym pakiecie dowiedziałem się tak późno. Ale ciesze się że się dowiedziałem wystarczająco by napisać dlaczego.

Cairo to biblioteka do grafiki 2d umożliwiająca zapisywanie grafiki do różnych formatów, między innymi wektorowych formatów PS, PDF, SVG, ale również do rastrowych formatów PNG itp. Biblioteka pozwala na stosowanie takich miłych technik jak anty-aliasing itp. poprawiających wygląd grafiki, szczególnie rastrowej, szczególnie w porównaniu z tym co R produkuje domyślnie. Zobaczmy czy biblioteka ta odmieni rysunki na tym blogu. Zaczniemy od prostego przykładu, w którym porównamy liczbę lat nauki z liczbą przeżytych lat, oczywiście bazując na zbiorze danych o Diagnozie społecznej.

Aby nie zaciemniać tego co najważniejsze, nie będę tutaj wklejał kodu R, który generuje wykres. Osoby zainteresowane znajdą ten kod tutaj. W kodzie tym wykorzystujemy funkcję xyplot() z pakietu lattice do wygenerowania obiektu wyk opisującego wykres.

Porównamy wygląd grafiki zapisanej poleceniami png(grDevices), CairoPNG(Cairo) i CairoSVG(Cairo). W przypadku tej ostatniej funkcji rozmiary podajemy w calach, w poprzednich dwóch w pixelach.

# standardowa funkcja pakietu R
png("wiek_lnauki.png",600,600)
print(wyk)
dev.off()
# ten sam format png, ale z użyciem pakietu Cairo
CairoPNG("wiek_lnauki_cairo.png",600,600)
print(wyk)
dev.off()
# i tym razem grafika wektorowa SVG
CairoSVG("wiek_lnauki.svg",7,7)
print(wyk)
dev.off()

Poniżej wygenerowane pliki. Pierwszy w formacie png wygenerowany przez funkcję png.

Drugi w formacie png ale wygenerowany biblioteka Cairo.

I trzeci w formacie SVG, nie każda przeglądarka potrafi go wyświetlić, jeżeli poniżej nie widać obrazka to znaczy że trzeba zmienić przeglądarkę.

Czy widać różnice? Ogromne, szczególnie na krzywych które w pierwszym przypadku są niesamowicie spixelowane w drugim przypadku już znacznie gładsze. Widać to szczególnie w dużym powiększeniu. W dużym powiększeniu widać też zalety wektorowego formatu SVG, krzywe będą gładkie bez względu jak bardzo je powiększymy. Oczywiście za format wektorowy trzeba zapłacić. W zbiorze danych Diagnoza Społeczna znajdują się dane dla kilku tysięcy osób. Gdyby każdą z nich zaznaczyć punktem to wektorowy format w którym każdy z tych punktów byłby opisany, zajmowałby kilkanaście MB. Nie najlepiej jak na grafikę do umieszczenia w internecie. Dlatego też na trzecim z powyższych obrazków są tylko krzywe bez punktów.

Dyskusje o technikaliach mamy już za sobą, zobaczmy co w ogóle widać na tych wykresach. Porównujemy liczbę lat nauki versus wiek. Dane bierzemy zarówno dla osób ankietowanych w roku 2000 jak i 2011. Znaczna część osób uczestniczy w obu badaniach, dla tej grupy spodziewamy się, że lat przybędzie ale lat nauki niekoniecznie.
Ciągła linią zaznaczyłem wygładzona medianę, kropkowaną linią wygładzony kwantyl rzędu 90%.

Dla osób które obecnie są w wieku 40-60 lat, mediana liczby lat edukacji to 11, dla osób w wieku 25 lat ta mediana jest już o 2 lata wyższa, efekt coraz większej liczby osób studiujących i też zmian w systemie edukacji. Niższą medianę liczby lat edukacji u osób w wieku >70 lat można wytłumaczyć wojną.

Przyjrzyjmy się jeszcze kwantylowi rzędu 90%. Dla 30latków kwantyl ten wynosi 18 lat nauki, czyli ponad 10% dzisiejszych 30latków ma na koncie 18 lub więcej lat nauki. To sporo, ale dla niektórych uczenie się nigdy się nie kończy. W stosunku do stanu sprzed 11 lat coraz więcej lat spędzamy na edukacji. Czy jako społeczeństwo jesteśmy dzięki temu mądrzejsi?

Zmiana dochodów w ostatnich 8 latach w podziale na płeć

Analiza zróżnicowania dochodów bardzo mnie interesuje. To jednak większy temat i poświęcimy mu więcej czasu kiedy indziej. Dziś chciałbym podzielić się jednym wykresem, na którym zobaczymy jak wyglądał rozkład dochodu netto ankietowanego w zależności od wieku i w zależności od płci, tak w roku 2003 jak i w roku 2011. Oczywiście złotówka dzisiaj i wtedy to dwie różne złotówki, nie sposób przeliczyć siły nabywczej teraz i wtedy bo zależy ona od koszyka zakupów. Inaczej wyglądała zmiana cen artykułów luksusowych, inaczej zmiana cen jedzenia a inaczej zmiana cen mieszkań. W każdym razie na potrzeby tego rysunku wykorzystam wskaźnik inflacji dla tych 8% wynoszący 23.7% (na podstawie http://blog.opiekuninwestora.pl/index.php/inflacja/). Więc przedstawiane ceny to albo ceny podane w roku 2011, albo ceny podane w roku 2003 i skorygowane o inflacje.

W poniższych ilustracjach nie analizujemy osobno osób żyjących samotnie (tzw singli), par bez dzieci (DINKs) i par z dziećmi, choć pewnie pomiędzy tymi trzema grupami są znaczne różnice, ale nie wszystko na raz.

Ciągła linia to wygładzona ocena mediany, przerywana to kwantyl rzędu 90%.
Dużych niespodzianek nie ma, ale niektóre wyniki są ciekawe.
Po pierwsze, nawet po uwzględnieniu inflacji zarobki wzrosły (nie tylko ankietowanych, bo to jest oczekiwane, ale tez rozkład zarobków w grupie wiekowej np 30 latków). I to wzrosły znacznie. Oby związane to było z większa produktywnością a nie spadkiem wartości złotówki.
Po drugie kobiety zarabiają mniej. Dotyczy to i medianowych zarobków i kwantyla 90%.
Po trzecie, i chyba najciekawsze, w roku 2011 wyraźnie widać, że najwyższe dochody uzyskują osoby w wieku 30-40 lat.
Biorąc pod uwagę, że oś oY jest logarytmiczna, zarówno osoby młodsze jak i starsze zarabiają znacznie mniej. U kobiet ten okres wyższych dochodów kończy się wcześniej niż u mężczyzn, ale u obu płci kończy się czy to patrząc na medianę czy na kwantyl 90%.
Inaczej było w roku 2003. Nie było wtedy tak dużych dysproporcji związanych z wiekiem, szczególnie jeżeli porównywać mediany dochodów. Ciekawe czy to zróżnicowanie będzie się jeszcze pogłębiało.

To pierwsza ilustracja. Czas na dokładniejsze drążenie tematu. Kierunków badania czynników różnicujących wysokość dochodów jest dużo. Może macie propozycje od czego zacząć?

Zmiany zamożności Polaków

Kontynuujemy analizy danych z badania Diagnoza Społeczna. Średnia pensja w Polsce rośnie szybciej nawet niż inflacja. Można więc uważać, że jest coraz lepiej.

Ten i kolejny wpis powstał ponieważ po pierwsze wyniki są ciekawe, a po drugie, ponieważ będzie okazja wprowadzić kolory w analizie gradacyjnej.

W kwestionariuszu dla gospodarstw piąte pytanie dotyczy sposobu gospodarowania dochodem, czy na wszystko wystarcza pieniędzy, czy wystarcza ale przy oszczędnym życiu, czy brakuje na coś. Będziemy poniżej porównywać odpowiedzi pomiędzy latami 2005 (kolumna „cl7”) i 2001 (kolumna „fL5”). Do porównania odpowiedzi w tych dwóch rocznikach wykorzystamy analizę gradacyjną.

Kilka linii kodu w R

# czy wystarcza pieniedzy w roku 2005 i 2011
zb1 = rev(table(factor(diagnozaGospodarstwa2011[,"fL5"])))
zb2 = rev(table(factor(diagnozaGospodarstwa2011[,"cl7"])))
 
plotGradeStat(t(t(zb2)), t(t(zb1)), osX="rok 2005", osY="rok 2011", skala=c(0.01,0.5), cutoff=0.011,uporzadkujMalejaco=F)

i mamy następujący wykres.

Etykiety można by skrócić, ale póki są czytelne nie walczyłem z nimi. W porównaniu z rokiem 2005 w roku 2011 ubyło o około jedną trzecią osób, którym wystarcza co prawda na najtańsze jedzenie, ale nie wystarcza na inne potrzeby. Liczba osób, którym wystarcza i jeszcze oszczędzają wzrosła trzykrotnie.

Podział obowiązków w rodzinie

Dzisiaj ponownie bazujemy na danych z Diagnozy Społecznej (więcej informacji o tym zbiorze danych tutaj). W ankiecie z roku 2009 znalazło się pytanie, jaki powinien być twoim zdaniem podział obowiązków w rodzinie, w zależności od tego czy są w rodzinie dzieci i w jakim wieku (pytanie 107 kolumna ep107.1-ep107.4).

Pytanie dotyczyło w gruncie rzeczy tego, kto powinien pracować a kto nie. Z podtekstem że osoba niepracująca będzie zajmowała się domem i dziećmi.

Wyniki obrazuje poniższa tabelka, a przez resztę wpisu będziemy zastanawiać na jakim wykresie taką tabelę należy przedstawić.

W każdej kolumnie procenty grzecznie sumują się do 100%.

                                                                  dzieci do 3 lat dzieci od 3 do 6 lat dzieci od 6 do 12 lat nie ma dzieci do 12 lat
OBOJE PRACUJĄ W PEŁNYM WYMIARZE                                              5.00                11.92                 40.78                   83.76
ON PRACUJE W NIEPEŁNYM, ONA W PEŁNYM WYMIARZE                                0.29                 0.91                  1.34                    0.31
ON PRACUJE W PEŁNYM, ONA W NIEPEŁNYM WYMIARZE                               18.63                42.06                 41.68                   10.10
ON PRACUJE W PEŁNYM WYMIARZE, A ONA PRZERYWA PRACĘ NA PEWIEN CZAS           49.13                30.79                  9.32                    2.61
ON PRZERYWA PRACĘ, ONA PRACUJE W PEŁNYM WYMIARZE                             0.20                 0.40                  0.73                    0.15
ON PRACUJE W PEŁNYM WYMIARZE, ONA REZYGNUJE Z PRACY                         26.75                13.92                  6.15                    3.06

 

W oczy rzuca się brak symetrii, przy założeniu że ktoś powinien zrezygnować z pracy najczęściej pada na kobietę (uwaga 1: zobaczymy później jak to wygląda w rozbiciu na płeć, uwaga 2: to wyniki ankiet a nie moje opinie, feministki, proszę nie rysujcie mi lakieru na moim rowerze). Niewiele jest osób, które przy dzieciach do 6 lat model oboje rodzice pracują jest najlepszy.

Przejdźmy do wykresów. Powyżej różnych modeli podziałów obowiązków jest 6, ale w sumie interesować będą nas trzy główne: oboje rodzice na pełny etat, jeden z rodziców na część etatu, jeden z rodziców nie pracuje. Na pierwszym wykresie będziemy pokazywać zakumulowane procenty (kody w R poniżej)

 

Takie wykresy są często krytykowane ponieważ udział procentowy zielonej i fioletowej grupy ciężko porównać z uwagi na przesunięty punkt 0. Drugi częsty powód krytyki to łączenie odcinkami procentów, które sugeruje że jest jakiś trend (liniowy) w wynikach pomiędzy kategoriami.

Tak więc nawet jeżeli graficznie ten wykres mi się najbardziej podoba wypada zobaczyć jeszcze kilka innych wariantów.

Wykres paskowy, bez sugestii co do liniowości trendu.

I jeszcze jeden paskowy, ale bez skumulowania procentów

I jeszcze wykres punktowy. W teorii wykres punktowy łatwiej czytać niż powyższy, ponieważ oś OY nie jest tak szeroka.

Cztery wykresy. Podejrzewam że każdy znajdzie swojego amatora. A wracając do treści pokazywanej na tych wykresach to następnym razem wrócimy do tematu jak te proporcje zmieniają się w grupach wiekowych i płciach.

 

Co jest ważne w życiu? w zależności od wieku

Cztery dni temu (tutaj) badaliśmy jak zmieniały się wartości ważne w życiu, bazując na danych z Diagnozy Społecznej. Można jednak przypuszczać że to co jest ważne w życiu zależy od wielu czynników, ale z pewnością równiez od wieku.

Więc powtórzyliśmy analizę gradacyjną w czterech grupach wiekowych. najpierw zbadaliśmy kwartyle roku urodzenia i dało nam to cztery mniej więcej równoliczne grupy respondentów, urodzonych w latach: 1910 – 1952, 1952-1971, 1971-1987, 1987-2011.

Grupa wiekowa 1910-1952.

 

W grupie 1951-1971.

W grupie 1971-1987

W grupie 1987 – 2011

 

Z powyższych wykresów wynikają przynajmniej dwie rzeczy:

– najsilniej zmienia się system wartości ludzi w wieku 30-40 lat. Odległość krzywej od przekątnej jest największa. Analiza gradacyjna dowiodła swojej wartości w wyraźny sposób podsumowując wielkość zmian. Dla respondentów w wieku 30-40 liczą się i to coraz bardziej dzieci i udane małżeństwo.

– zmieniają się też rzeczy uznawane za ważne. W grupie osób najmłodszych wysokie miejsce zajmują pieniądze i praca, a starszych grupach i pieniądze i płacę wyprzedzają udane małżeństwo i dzieci.