Jakiś czas temu rozsyłałem informację o tym, że fundacja SmarterPoland rekrutuje wolontariuszy. Zgłosił się tuzin osób a po trzech tygodniach pozostała szóstka aktywnych osób (znacznie więcej niż się spodziewałem! super!). Pracujemy nad zbiorem danych PISA 2009 i pewnie nie raz jeszcze napiszę tu o uzyskanych wynikach, gdy już będą nadawały się do prezentacji. Wiki projektu znajduje się tutaj.
Jednym z pierwszych wytworzonych artefaktów, o którym chciałbym tutaj napisać jest przetworzony zbiór danych z badania PISA w formacie csv, który łatwo wczytać do programu R lub innych programów (oryginalny nie jest najłatwiejszy do wczytania). Zawiera on podzbiór wybranych kolumn z oryginalnego badania, dzięki czemu zajmuje po rozpakowaniu tylko 400MB i można jeszcze z nim pracować na zwykłym domowym komputerze.
Pod linkami: [students], [parents], [school] znajdują się spakowane pliki z danymi (Uwaga! Spakowane ważą około 85MB). W [tym pliku] znajduje się skrypt programu R pobierający spakowane pliki, rozpakowujący je i wczytujący dane do programu R. Plik z danymi w postaci binarnej R (RData) znajduje się tutaj: [plik Rdata].
Artefakt o tyle ciekawy, że ma stronie projektu PISA dane dostępne są jedynie w postaci łatwej do wczytania do SASa lub SPSSa.
Konwersję wykonał Maciej Beręsewicz. Ciekawostką dla użytkowników R będzie informacja, że użył do tego pakietu SAScii. Użyteczny pakiet, pozwala na wykorzystanie skryptów SASa z definicją jak wczytać dane w postaci tekstowej. Pakiet SAScii parsuje skrypt SASa a następnie wykorzystuje zebrane informacje by wczytać dane bezpośrednio do R. W [tym pliku] jest skrypt wykorzystujący pakiet SAScii.
I na koniec link do bardzo surowych/wstępnych prac/eksperymentów przeprowadzonych przez Tomasza Owczarka, mianowicie do próbnej analizy danych z użyciem [Tableau]. Na razie bez żadnego komentarza, gdy wyniki dojrzeją przedstawię je tutaj z komentarzami.
One thought on “Dane z badanie PISA 2009 a pakiet SAScii”