Diagnoza społeczna to badanie prowadzone przez radę monitoringu społecznego od roku 2000. Więcej informacji o tym badaniu można znaleźć na stronie http://diagnoza.com/. Jest to badanie panelowe, dane zbierane są co 2-3 lata. Niedawno pojawiły się dane z edycji 2011. Badane jest bardzo wiele parametrów, można naprawdę prześledzić co ciekawego działo się w Polsce przez ostatnie 11 lat. Te dane nadają się świetnie na ćwiczenia ze statystycznej analizy danych dla studentów i nie tylko. Tydzień temu Paweł Teisseyre z IPIPANu używał tego zbioru danych do demonstrowania regularyzowanej wersji regresji logistycznej w R na WZUR 4.0.
Dane są publicznie dostępne. Niestety na stronie projektu dane są w postaci plików programu SPSS. Na potrzeby tego bloga zostały przekonwertowane do formatu programu R.
Katalog z danymi znajduje się tutaj.
Dane podzielone są na dwa zbiory, z opisem gospodarstw domowych i opisem osób o wieku ponad 16 lat zamieszkujących w tych gospodarstwach.
Dane o gospodarstwach można ściągnąć w postaci pliku RData, pliku w formacie csv oraz pliku z opisami kolumn, w zbiorze danych jest 20655 wierszy i 1820 kolumn.
Dane o osobach można ściągnąć w postaci pliku RData, pliku w formacie csv oraz pliku z opisami kolumn, w zbiorze danych jest 65373 wierszy i 2427 kolumn.
Skrypt wczytujący dane dostępny jest tutaj.
Na stronach projektu znaleźć można obszerne raporty które na kilkuset stronach prezentują tysiące wniosków i dziesiątki rysunków. Postaram się w najbliższej przyszłości umieścić kilka celowanych wizualizacji tak by na jednym rysunku upakować całą historię. Jeżeli studenci coś ciekawego na tym zbiorze danych zrobią to też dodam do bloga.
Cytowanie: Rada Monitoringu Społecznego (2011). Diagnoza społeczna: zintegrowana baza danych. www.diagnoza.com 20-X-2011;
Mam problem z przyporządkowaniem nazw kolumn do konkretnych zmiennych – opis z pliku txt nie pasuje do danych, ani w CSV ani w RData (w jednym 1819 kolumn, a w drugim 2427). Jest gdzieś błąd, czy ja coś robię źle.
Pozdrawiam
Paweł Kleka
(z Poznania)
Wkradl sie niestety do tych plikow blad i blednie pliki z opisem mialy zamienione nazwy.
Zamienilem nazwami pliki diagnozaOsoby2011Opis.txt i diagnozaGospodarstwa2011Opis.txt i teraz juz opisy odpowiadaja plikom z danymi.
Dziekuje za zwrocenie na to uwagi i pozdrawiam!