Diagnoza Społeczna 2013 a co jest dla nas ważniejsze w życiu?

Diagnoza Społeczna to bardzo ciekawy zbiór danych, przykład dużego badania panelowego prowadzanego od roku 2000 (do dziś 7 edycji). Cały zbiór danych można pobrać ze strony diagnoza.com, ale niestety tylko w postaci plików SPSSowych sav.

Skonwertowałem zbiór danych z edycjami 2000-2013 do formatu R i umieściłem na GitHubie (tutaj: https://github.com/pbiecek/Diagnoza).

Osoby korzystające z R mogą z tego zbioru korzystać zainstalowawszy pakiet Diagnoza z Githuba, czyli wpisując poniższe trzy linijki.

library(devtools)
install_github("pbiecek/Diagnoza")
library(Diagnoza)

Skoro już go zainstalowaliśmy to zróbmy coś z tymi danymi.

W badaniu z roku 2013 znalazło się ciekawe pytanie 'Co jest według Pana ważniejsze w życiu?’ (fp29) z możliwymi odpowiedziami:

  • przyjemności, dostatek, brak stresu,
  • osiąganie ważnych celów mimo trudności, bólu i wyrzeczeń

Czy ciekawi Was jak odpowiedzi na to pytanie różni się w zależności od płci i wieku?
Mnie interesowało, więc szast prast i mamy wykres.

Wykres zgodny ze stereotypami, choć różnice w procentach nie są dramatyczne. Uogólnianie, że młodzi mężczyźni, to a starsze kobiety tamto, to zbytnie uproszczenie, ale pewien trend jest widoczny.

Ale najpiękniejsze jest to, że do policzenia ważonych średnich (w Diagnozie dane są ważone) i narysowania tego wykresu wystarczą cztery linijki.

library(dplyr)
library(scales)
 
agregat <- 
  osoby[,c("fp29", "PLEC", "WAGA_2013_OSOBY", "WIEK6_2013")] %>% 
  group_by(fp29, PLEC, WIEK6_2013) %>%
  summarise(waga = sum(WAGA_2013_OSOBY, na.rm=TRUE)) %>%
  na.omit()
 
ggplot(agregat, aes(x=WIEK6_2013, y=waga, fill=fp29)) + 
  geom_bar(stat="identity", position="fill") + facet_wrap(~PLEC) +
  theme(legend.position="top") + 
  scale_fill_manual(name="Co jest według Pana ważniejsze w życiu?", 
        values=c("gold3", "blue3")) +
  scale_y_continuous(labels = percent) +
  ylab("Procent osób") + xlab("Wiek")

Udanej zabawy z tym zbiorem danych.
Zbiór danych z ankietami osobowymi to 75 tys wierszy i 3000 kolumn (cech). Dla gospodarstw domowych wymiary to 23800 x 2161.

7 thoughts on “Diagnoza Społeczna 2013 a co jest dla nas ważniejsze w życiu?”

  1. Diagnoza to był zbiór, który zawsze wywoływał zawał RAMu na moim komputerze, i dopiero teraz widzę przewage dplyr nad agregacją za pomocą ddply – różnica w czasie działania funkcji ddply robiącej to samo jest po prostu powalająca.

    Inicjatywa bardzo dobra, a diagnoza to jeden z najmniej docenionych (pod względem ilości publikacji, które mogłyby z tego powstać) zbiorów w Polsce.
    Pozdrawiam

    1. Fakt, ten zbiór danych mogłaby być lepiej wykorzystany (ale przydałaby się też większa otwartość, dostępność, wsparcie ze strony organizatorów Diagnozy).
      Jakiś czas temu zachęcałem (ok, zmuszałem) studentów to przygotowania projektów opartych o ten zbiór danych.
      Może to jest jakiś sposób by oswoić ludzi z tymi danymi.
      [nie każdy magistrant musi koniecznie do swojej pracy dyplomowej robić badania na grupie 20 znajomych, skoro są bardzo fajne otwarte duże i poprawnie zebrane zbiory danych]

  2. Dziękuję za skonwertowanie do R tych plików! Swego czasu próbowałem sam to zrobić, ale byłem „zbyt cienki” i dałem spokój…

  3. Jeszcze raz dziękuję za pomoc.

    Nie wiem, czy jestem jedynym użytkownikiem tego pakietu, ale chciałbym zgłosić, że w zbiorze „osoby” sprawiają problemy nazwy kolumn z polskimi literami, a dokładnie „województwo” i „poziom_wykształcenia_ … _2009, 2011, 2013”. poziom_wyksztalcenia_2007 i wcześniejsze są ok, bo bez „ł”.

    1. Z jakiegoś powodu ten komentarz trafił do spamu, przepraszam.

      Polskie nazwy kolumn poprawiłem
      przy okazji pytanie, czy wszystkie nazwy kolumn zrobić lower/upper case?
      teraz jest różnie i to trochę denerwuje, ale nie mam preferencji czy lepsze nazwy będą dużymi czy małymi literami

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *