Poziom umiejętności matematycznych w szkołach prywatnych a państwowych, w miastach małych i dużych

Jakiś czas temu pisałem (tutaj) o tym jak w prosty sposób wczytać do programu R dane z badania PISA przeprowadzonego w roku 2009. Pisałem również, że w te wakacje kilku wolontariuszy pomaga Fundacji w analizie tych danych. Czasem zdarzają się ciekawe obserwacje i o jednej z nich będzie dzisiaj.
Autorem przedstawionych poniżej wyników/wizualizacji jest Tomasz Owczarek.

Egzaminy w ramach badania PISA przeprowadzano w szkołach tak prywatnych jak i publicznych, tak z dużych jak i z małych miast. Mając to na uwadze można postawić takie pytanie: jak wygląda zróżnicowanie wyników uczniów w zależności od tego czy szkoła jest prywatna czy nie, czy jest w dużym mieście czy małym? Jak się zaraz okaże w przypadku polskich szkół różnice w średnich wynikach z testu matematycznego są duże, szkoły w większych miastach mają uczniów z lepszymi wynikami, szkoły prywatne mają średnio lepsze wyniki niż publiczne (chodzi o szkoły dla 15latków). Nie oznacza to, że poziom nauczania jest lepszy (to mierzyłaby edukacyjna wartość dodana), ale że w szkole są średnio lepsi uczniowie (a to może być efektem wielu czynników).

Temat ciekawy, ponieważ jeżeli różnica w wynikach bierze się stąd, że w dużych miastach i szkołach prywatnych edukacja jest na wyższym poziomie, to być może da się tych dobrych nauczycieli ,,udostępnić online” w ramach inicjatyw typu Khan Academy. Ale być może różnica w wynikach bierze się wyłącznie z tendencji ,,lepsi przyszli, lepsi wyszli”?

Na pytanie skąd biorą się różnice w wynikach postaramy się odpowiedzieć później (sami jeszcze nie wiemy, pracujemy nad tym). A poniżej kilka obserwacji przedstawiających różnice w wynikach dla różnych szkół.

Poniższe wykresy są zrzutami ekranu z interaktywnej wizualizacji wykonanej z użyciem programu Tableau (dostępnej tutaj).

Rysunek 1. Wyniki dla wybranych polskich szkół, na niebiesko wyniki dla szkół publicznych, na pomarańczowo dla szkół prywatnych. Im większe miasto tym lesze wyniki, systematycznie w szkołach prywatnych wyniki są średnio wyższe.

Rysunek 2. Dodajmy kilka innych krajów do porównania. Okazuje się że tylko w USA i Chile (korekta, było Chinach) ,,efekt szkoły prywatnej” (mówimy o szkołach dla 15latków) jest podobnej wielkości. Co ciekawe dla większości krajów nie widać zależności pomiędzy wynikami a wielkością miasta w którym jest szkoła (a więc Polska jest tu wyjątkiem).

Zachęcam do ,,pobawienia” się interaktywną mapą dostępną (dostępnej tutaj) i do dzielenia się obserwacjami.

Dane z badanie PISA 2009 a pakiet SAScii

Jakiś czas temu rozsyłałem informację o tym, że fundacja SmarterPoland rekrutuje wolontariuszy. Zgłosił się tuzin osób a po trzech tygodniach pozostała szóstka aktywnych osób (znacznie więcej niż się spodziewałem! super!). Pracujemy nad zbiorem danych PISA 2009 i pewnie nie raz jeszcze napiszę tu o uzyskanych wynikach, gdy już będą nadawały się do prezentacji. Wiki projektu znajduje się tutaj.

Jednym z pierwszych wytworzonych artefaktów, o którym chciałbym tutaj napisać jest przetworzony zbiór danych z badania PISA w formacie csv, który łatwo wczytać do programu R lub innych programów (oryginalny nie jest najłatwiejszy do wczytania). Zawiera on podzbiór wybranych kolumn z oryginalnego badania, dzięki czemu zajmuje po rozpakowaniu tylko 400MB i można jeszcze z nim pracować na zwykłym domowym komputerze.

Pod linkami: [students], [parents], [school] znajdują się spakowane pliki z danymi (Uwaga! Spakowane ważą około 85MB). W [tym pliku] znajduje się skrypt programu R pobierający spakowane pliki, rozpakowujący je i wczytujący dane do programu R. Plik z danymi w postaci binarnej R (RData) znajduje się tutaj: [plik Rdata].

Artefakt o tyle ciekawy, że ma stronie projektu PISA dane dostępne są jedynie w postaci łatwej do wczytania do SASa lub SPSSa.

Konwersję wykonał Maciej Beręsewicz. Ciekawostką dla użytkowników R będzie informacja, że użył do tego pakietu SAScii. Użyteczny pakiet, pozwala na wykorzystanie skryptów SASa z definicją jak wczytać dane w postaci tekstowej. Pakiet SAScii parsuje skrypt SASa a następnie wykorzystuje zebrane informacje by wczytać dane bezpośrednio do R. W [tym pliku] jest skrypt wykorzystujący pakiet SAScii.

I na koniec link do bardzo surowych/wstępnych prac/eksperymentów przeprowadzonych przez Tomasza Owczarka, mianowicie do próbnej analizy danych z użyciem [Tableau]. Na razie bez żadnego komentarza, gdy wyniki dojrzeją przedstawię je tutaj z komentarzami.

Statystyka śledcza, powtarzalne badania, Sweave, knitr czyli useR 2012

Gdyby zadać pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub artykułach naukowych powinny być powtarzalne?” większość osób odpowiedziałaby tak. Powinno być jasne jakie są dane źródłowe i jak były przetwarzane zanim uzyskano podany wynik.

Na pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub pracach naukowych można odtworzyć?” odpowiadać powinny tylko osoby przygotowujące raporty lub próbujące odtworzyć wyniki innych. I tutaj z odpowiedziami może być różnie. W skutek wstępnych transformacji, usuwania przypadków ,,odstających”, różnych wariantów normalizacji, zawodnej pamięci bywa tak, że po roku autor nie jest w stanie odtworzyć własnych analiz, a co dopiero inna osoba. Efekt ten jest szczególnie silny gdy używa się narzędzie typu ,,wyklikaj analizę i zapomnij”.

Problem zawodnej pamięci jest mniej poważny niż problemy w analizie. Każdy jest omylny, dostęp do dokładnego opisu jak analizy zostały przeprowadzone pozwala na szybkie znalezienie i naprawienie ewentualnych błędów.

Statystyka śledcza

Statystyka śledcza to robocza nazwa dziedziny w której celem jest zbadanie czy analizę danych można odtworzyć oraz czy analiza została przeprowadzona poprawnie. Dziś na useR Kevin Coombes pokazywał przykłady błędów statystycznych znalezionych w poważnych czasopismach medycznych (takich poważnych błędów jak np pomylenie indeksu identyfikatora nazwy genu o +1 czy pomylenie etykietek zdrowy/chory!). Jak się okazuje wyśledzenie niektórych błędów w artykule kosztuje ponad 1500 godzin pracy statystyka! 1500 godzin to prawie rok pracy na pełnym etacie! A byłoby łatwiej gdyby nie trzeba było przeprowadzać odwrotnej inżynierii pracy statystyka, ale gdyby ta praca była udokumentowana. Bardzo ciekawy przypadek jednego ze znalezionych przez Kevina błędu znaleźć można w pracy http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/SR0.pdf, materiały dodatkowe pozwalające na całkowite odtworzenie tego znaleziska znajdują się tutaj http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/.

Powtarzalne badania

Na szczęście są narzędzia pozwalające na zapisanie całej analizy w postaci powtarzalnego skryptu (np. R) oraz zintegrowanie takiego skryptu z narzędziem pozwalającym na wygenerowanie prezentacji, raportu z komentarzami, publikacji, książki, podręcznika w formacie pdf, html, doc i innych. Taka integracja pozwala na dokładne sprawdzenie jaki zestaw analiz był użyty by wygenerować określony wykres / wynik / tabelę.

Do takiej integracji służą między innymi pakiety Sweave i knitr dla programu R.

Statystyk Frank Harell jest jednym z misjonarzy powtarzalnych badań, poprowadził na useR interesujące warsztaty dotyczące obu pakietów.  Obszerne materiały prezentowane podczas warsztatów i wiele ciekawych odnośników do samouczków znaleźć można na tej stronie: http://biostat.mc.vanderbilt.edu/wiki/Main/SweaveLatex.

 

,,Szkoła to strata czasu”. Czy tak o szkole myślą 15-letni Polacy?

Tak, ten tytuł bardziej przypomina tytuł z Faktu czy portalów (dez)informacyjnych, niż wyważony tytuł bloga informacyjnego ;-). Ale przynajmniej pasuje do treści prezentowanej poniżej.

W poprzednim wpisie pisałem o badaniu PISA w ramach którego w roku 2009 przepytano ponad 500 tyś 15-latków z całego świata z czego prawie 5 tyś z Polski. Pytano o bardzo wiele rzeczy, między innymi o nastawienie do szkoły. Angielskojęzyczną wersję ankiety z oryginalnymi pytaniami znaleźć można tutaj. Dwa pytania zainteresowały mnie szczególnie: Q33A i Q33B, czyli (w wolnym tłumaczeniu) ,,Szkoła uczy mnie rzeczy, które mogą być przydatne w przyszłej pracy” i ,,Szkoła to strata czasu”. Przy obu zdaniach student mógł zaznaczyć ,,bardzo się nie zgadzam”, ,,nie zgadzam się”, ,,zgadzam się”, ,,bardzo się zgadzam”. Ponieważ najczęściej ankietowani zgadzali się z pierwszym zdaniem a nie zgadzali z drugim, więc aby łatwiej przedstawić te wyniki graficznie zamieniłem obie zmienne na binarne, w pierwszym przypadku licząc jaki procent uczniów ,,bardzo się zgadza” z tym, że szkoła przygotowuje do pracy, a w drugim przypadku jaki procent uczniów ,,bardzo się zgadza”, ,,zgadza się” lub ,,nie zgadza się” z tym zdaniem (czyli wszystko poza ,,bardzo się nie zgadzam”). Inny podział poziomów na zmienne binarne nie zmieniał znacząco kolejności państw ale mniej je różnicował, dlatego nie zastosowałem binaryzacji metodą dwa za vs. dwa przeciw.

Poniżej graficzna prezentacja jak te dwa wskaźniki wyglądają dla europejskich państw.

 

Tak, to państwo w prawym dolnym rogu to Polska.

Tak, to źle wróży skoro uczniowie tak myślą o szkole.

Tak, ze zbioru kilkuset współczynników można wybrać takie w których wypadamy znacznie lepiej na tle europejskich krajów.

Tak, ten wpis miał na celu sprowokowanie Was do poklikania w te interaktywne wykresy przedstawiające inne charakterystyki uczniów.

Tak, do badania PISA jeszcze wrócimy i przedstawimy te dane bez tej sztucznej binaryzacji (jak tylko wymyślę jak to zrobić czytelnie, a może Wy macie na to jakiś pomysł?).

W ankiecie dla ucznia jest znacznie więcej pytań. Może któreś z nich szczególnie Was interesuje?

 

Badanie PISA a interaktywna grafika

 

Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.

PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.

Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.

Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.

Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?

 

 

 

Fundacja poszukuje wolontariuszy i stażystów do realizacji kilku interesujących projektów.

Uprzejmie proszę o przesłanie tej informacji osobom, które mogą być zainteresowane lub znać kogoś kto byłby zainteresowany takimi praktykami. Kandydaci na stażystów i wolontariuszy proszone są o kontakt mailowy na adres P.Biecek@mimuw.edu.pl.

Podczas proponowanego stażu można rozwinąć umiejętności związane z gromadzeniem danych (parsowanie stron, wczytywanie danych z różnych źródeł i formatów), przechowywaniem danych, eksploracją i przetwarzaniem danych (czyszczenie danych, programowanie), wizualizacją danych (statyczną i dynamiczną) oraz wyciąganiem wniosków/historii z danych. Szczególnie polecamy takie praktyki osobom zainteresowanym informatyką, statystyką, matematyką lub dziennikarstwem.

Fundacja istnieje od roku, jej misją jest zwiększanie potencjału społeczeństwa w obszarze rozumienia, czytania, przetwarzania i prezentacji danych/informacji. Wierzymy, że na solidnych danych można budować lepsze decyzje. Chcemy rozwijać umiejętności zarówno osób przetwarzających i publikujących dane jak i osób czytających zestawienia, raporty, wizualizacje. Planujemy osiągnąć ten cel wytykając błędy i niezrozumienie w komunikacji z użyciem danych, eksponując dobre przykłady solidnej komunikacji/prezentacji informacji oraz tworząc przestrzeń na wymianę doświadczeń, wrażeń, opinii.

Projekty planowane na najbliższe miesiące związane są z badaniem rzetelności i wiarogodności wykresów i wizualizacji przedstawionych przez media. Po prześledzeniu aktualnych oraz archiwalnych artykułów planujemy przygotować zestawienia pokazujące czy, a jeżeli tak to na jakie błędy i przekłamania narażony jest czytelnik. Również na ile przedstawiane liczby są wiarygodne i zgodne z alternatywnymi źródłami. Jeden z pod projektów dotyczy np. badania zgodności sondaży poparcia dla partii wykonywanych przez różne instytucje badawcze.

Trendy wśród młodzieży w odpowiedzi na pytanie: palenie albo zdrowie

 

Dzisiejszy wpis poświęcony będzie próbie odpowiedzenia na pytanie, czy palenie jest coraz bardziej czy coraz mniej popularne. Zacznę od krótkiej dygresji dotyczącej pułapek zastawionych na beztroskich analityków, a następnie przedstawię swoje wyniki. Pokażę wyniki, wspierające tezę, że stopniowo coraz mniej osób zaczyna palić, ale (niestety) zaczynają one palić coraz wcześniej. Następnie przyjrzymy się, jak te trendy wyglądają dla różnych płci. Okaże się, że wyglądają różnie.

Być może część z czytelników pamięta wpis ,,Nauka spod znaku cargo”, w którym krytykowałem liczenie średniej z roku rozpoczęcia palenia. Proponując podejście oparte o kwantyle zauważyłem, że większość z osób które palą (ponad 80%) zaczyna palenie pomiędzy 15. a 23. rokiem życia.

Odpowiedź na pytanie, kiedy palacze zaczynają palenie, to jedna sprawa, ale pytanie, ile osób pali i jak odsetek palących zmienia się w kolejnych latach, to sprawa zupełnie inna.
Badanie przeprowadzimy bazując na ankietach zebranych trzy lata temu od kilku tysięcy osób wybranych losowo z populacji Polaków pomiędzy 20 a 60 rokiem życia. Ankietowanych pytano między innymi: czy paliłeś przez przynajmniej rok, kiedy zacząłeś palić, czy paliłeś w ostatnim miesiącu. Policzenie proporcji osób, które odpowiedziały że paliły przynajmniej rok, wiele nam nie powie jeżeli nie będziemy wiedzieć w jakim wieku są ankietowani. Część z nich może nie paliła jeszcze roku w chwili przeprowadzania ankiety ale zacznie palić później. Przedstawienie proporcji palaczy jako funkcji roku urodzenia, też nie jest najlepszym pomysłem, ponieważ osoby starsze miały więcej czasu aby zacząć palić. Nie można porównać procentu osób, które przez przynajmniej rok w życiu paliły i mają 40 lat, i osób, które przez przynajmniej rok w życiu paliły, a mają lat 20. Spodziewamy się, że procent palaczy w drugiej grupie będzie niższy, dlatego że część z tych dwudziestolatków, którzy jeszcze nie palą, zacznie palić przed 40 rokiem życia. Nie ma co porównywać gruszek i jabłek.

Kilka dni temu, kiedy przedzierałem się przez tłumy na ,,Pikniku Naukowym Polskiego Radia i Centrum Nauki Kopernik” (w skrócie PNPRiCNK 😉 ) przyszła mi do głowy pewna myśl. Gdy się dłużej zastanowić jak porównywać jabłka z jabłkami, staje się to oczywiste. Nie mogę porównać procentu palących wśród osób urodzonych w 1965 z procentem osób palących urodzonych w 1985, ponieważ ci pierwsi żyją dłużej i mieli ,,więcej okazji” by zacząć palić. Ale mogę porównać procent osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1965, z procentem osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1985. Każda z tych grup miała 25 lat, by zacząć palić. Mając informacje z ankiety, o której wcześniej pisałem, dosyć łatwo takie procenty policzyć. Policzyłem je więc dla różnych ,,punktów odcięcia”. Najciekawsze jest porównanie odsetków dla 17-latków i 25-latków.

Poniższy wykres przedstawia procent osób, które mając 17 (czerwona) lub 25 (czarna linia) lat życia paliły przez przynajmniej jeden rok, jako funkcję roku urodzenia. Wokół krzywych przedstawiono punktowe przedziały ufności dla oceny tych proporcji na poziomie 95%.

Wyniki są ciekawe. Spójrzmy na czarną krzywą, odpowiada ona odsetkowi osób, które paliły przynajmniej rok przed ukończeniem dwudziestu-pięciu lat. Trend jest malejący, czyli dwudziestopięciolatków, którzy palili przez przynajmniej rok, jest coraz mniej. Przesuwając się o 23 lata w prawo na osi OX odsetek osób palących przez przynajmniej rok spadł o ponad 1/3 z 58% do 40%. Nie dziwi mnie to tak bardzo. Koniec końców kampania przeciwko paleniu jakoś działa. Kilkadziesiąt lat temu palacze byli wszędzie, w telewizji, w teatrze itp. Dziś w filmach palący nie są już tak eksponowani.

Z drugiej strony, jeżeli spojrzymy na odsetek 17 latków, którzy palili przez przynajmniej jeden rok życia, zauważymy, że tutaj trend jest przeciwny. Pośród osób urodzonych w latach 1960-1965 17 latków, którzy palili przez przynajmniej rok było poniżej 20%, a po 23 latach ten odsetek wzrósł do prawie 30%.
Zobaczmy teraz jak te trendy wyglądają dla mężczyzn a jak dla kobiet.
Na poniższym rysunku trójkąty oznaczają proporcje w grupie mężczyzn, a kropki proporcje w grupie kobiet. Symbole puste w środku odpowiadają sytuacji w grupie 17-latków, a symbole wypełnione odpowiadają sytuacji w grupie 25-latków.

Dodatkowo, by trendy były łatwiejsze do zauważenia, dodałem krzywą trendu powstałą z wygładzenia proporcji w poszczególnych grupach wiekowych.

W grupie 25-letnich mężczyzn widać spadającą proporcję palaczy. W grupie siedemnastolaktów odsetek osób palących przez przynajmniej rok utrzymuje się na stałym poziomie 30%.
Dla 25-letnich kobiet odsetek osób palących przez przynajmniej rok jest niższa niż w grupie mężczyzn. Patrząc na trend w czasie zauważymy, że spada ona wolniej niż dla mężczyzn i być może niedługo się one zrównają. Za to wśród siedemnastolatek odsetek osób palących przez przynajmniej rok palaczek bardzo szybko przyrasta, ,,doganiając” 30% obserwowane dla siedemnastolatków.

Z czym powiązać inny trend dla różnych płci? Być może koncerny tytoniowe zaczęły adresować reklamy papierosów też dla kobiet? A może macie inne pomysły na wyjaśnienie tych różnic?

 

PS: Łatwo zauważyć, że w tym wpisie jest znacznie więcej przecinków niż w poprzednich wpisach, również zdania są bardziej gładkie. Jest to zasługa pani Magdaleny Ł., która podjęła się eksperymentalnie funkcji pierwszego czytającego. Serdecznie dziękuję.

Edukacja statystyczna a matura z matematyki poziom podstawowy 2012

Wczoraj maturzyści pisali egzamin maturalny z matematyki na poziomie podstawowym. Arkusze egzaminacyjne można znaleźć np. tutaj. Poniżej, chciałbym się podzielić kilkoma gorącymi wrażeniami z lektury zadań maturalnych.

Ponieważ interesuje mnie edukacja statystyczna, ponieważ uważam, że znajomość statystyki jest niezbędna, dlatego też byłem ciekawy czy po maturzyście można oczekiwać podstawowej choć znajomości statystyki, losowości, zmienności itp.

Przeglądając listę zadań na poziomie podstawowym okryłem niestety że żadne z nich nie dotyczy statystyki. Jedno jedyne (zadanie 31 za 2 pkt) dotyczy rachunku prawdopodobieństwa. To oczywiście wynika z tego, że statystyki w liceum się nie uczy.

A szkoda.

Bardzo lubię trygonometrię, geometrię, kombinatorykę i zresztą całą matematykę, ale czy nie jest ważniejsze by we współczesnym świecie uczyć w liceum statystyki? Czy nie bardziej przydatne byłoby uczenie zrozumienia co to trend, co to ryzyko, co to wariancja?

Szkoła Infografiki a moja prezentacja

W poprzedni czwartek 22 marca miałem przyjemność poprowadzić godzinną prezentację nt. dobrych i złych wykresów. Prezentacja miała miejsce w ramach warsztatów organizowanych przy Szkole infografiki. Szkoła infografiki jest projektem prowadzonym przez Centrum Cyfrowe projekt” Polska.

Spotkanie odbyło się w klubokawiarni na Chłodnej 25. Okazuje się, że w piwnicach jest sala na około 50 osób z projektorem i ekranem. Kawa jest bardzo dobra i znacznie tańsza niż w centrum. Więc wygląda to jak bardzo ciekawe miejsce na spotkania warsztatowe niewielkich grup. Polecam.

Mnie się spotkanie bardzo podobało, choć jako prezentujący mogę mieć spaczone wrażenie. Zainteresowanych osób było sporo, ścisłowców było mało ale byli, byli też prawdziwi dziennikarze, tym ciekawiej spojrzeć na jakiś temat z innej strony. Kolejną prezentację, mniej więcej za miesiąc, ma poprowadzić specjalistka od grafiki i informacji z ASP w Katowicach, również polecam.

Więcej informacji Szkole infografiki i podobnych projektach można znaleźć tutaj.

Więcej informacji o think-tanku (zna ktoś jakieś dobre, czyli niedosłowne, tłumaczenie?)  Centrum Cyfrowe projekt: Polska tutaj.

Więcej informacji o klubokawiarni na Chłodnej znajduje się tutaj.

Klikając na poniższy slajd można pobrać moją prezentację (uwaga, ponad 10MB).

Spotkanie było też nagrywane i pewnie na stronach Centrum pojawi się kiedyś odnośnik do nagrania.

AKTUALIZACJA: Link do nagrania z warsztatów.

 

Ekonomia i markerting, liczba doktorantów a wykresy

Dzisiejszy wpis prezentuje jedną z nagrodzonych prac na podejrzaną wizualizację. Konkurs jest opisany dokładnie w tym wpisie (btw: zostały mi jeszcze trzy komplety gadżetów do rozdania za wskazania interesujących wykresów).

Tym razem przyjrzymy się wykresom z miesięcznika Uniwersytetu Ekonomicznego w Krakowie ,,Kurier UEK”. Szczególnie tym ze stron 14-15.

Zacznijmy od ilustracji liczby uczelni z którą współpracował UEK.

Wykres pokazuje, że liczba współpracujących placówek rośnie i rośnie. Wrażenie wzrostów zostało podkręcone, kilkoma ,,sztuczkami”

  • perspektywą, wykres jest tak obrócony, że ten sam wynik liczbowy wyglądałby jak wzrost,
  • zmienioną osią OY, wybraną tak by uwypuklić najmniejsze zmiany,
  • dorysowaną jaśniejszym kolorem parabolą, która jest wyłącznie estetycznym zabiegiem wzmacniającym wrażenie wzrostów.

Wzrosty są, ale ten wykres je uwypukla do granic przyzwoitości. Zobaczmy jak wyglądałby ten sam wykres bez ozdobników.

 


Wzrosty nie są już takie spektakularne. Jest wyraźna tendencja wzrostowa, ale po osi OY widać, że wzrost wyniósł około 15% przez 5 lat.

 

Kolejny wykres, który mnie zainteresował to pozycja polskich uczelni ekonomicznych w rankingu Webometrics 2012.

UE Kraków ma czegoś więcej niż pozostałe uczelnie ekonomiczne i wyraźnie jest ,,wyżej”. Nie jest niestety wyjaśnione czym są punkty z tego wykresu. Nie jest to pozycja w rankingu, gdyż po pierwsze tak wysoko polskie uczelnie w rankingach nie stoją a po drugie UAE nie chwaliłby się pozycją niższą niż pozostałe szkoły. Nie udało mi się niestety odszyfrować co ta liczba oznacza.

Ranking Webometrics przedstawia wyniki w różnych aspektach oraz pozycję danej uczelni w globalnym światowym rankingu. Wiele polskich uczelni jest w tym rankingu uwzględnianych, wybrałem 10 ekonomicznych i przygotowałem taki oto wykresik.

Kolumna ,,World Rank” odpowiada pozycji w globalnym światowym rankingu uczelni, a pozostałe cztery kolumny odpowiadają pozycjom w rankingach jeżeli uwzględnić jedynie określony aspekt. Odpowiednio Rich.Files to ranking oparty o liczbę dokumentów .doc, .pdf., .ppt itp znalezionych przez Googla wskazujących na tą uczelnię, ,,Scholar” to ranking bazujący na wynikach z Google Scholar, ,,Size” to ranking bazujący na liczbie stron zidentyfikowanych przez Googla, ,,Visibility” to ranking oparty na liczbie zewnętrznych odnośników o stron danej uczelni. Na osi OY przedstawiono miejsce w rankingu światowym (yupii, dwie uczelnie ekonomiczne są w piątym tysiącu na świecie :-P).

Co ciekawe porównując dwa powyższe rysunki, okazuje się, że UEK nie jest drugie w kategorii World.Rank i na niższych pozycjach w pozostałych kategoriach. Wyprzedza ją tylko prywatna Wyższa Szkoła Lipińskiego, ale ta nie znalazła się na wykresie z Kuriera UEK.

W każdym razie po raz kolejny widzimy, że wybierając konkurentów i kategorię zawsze można znaleźć kombinację kryteriów w których jest się najlepszym.

 

I ostatni wykres w dzisiejszym zestawieniu, ma te same wady co pierwszy z prezentowanych, ale dotyczy ciekawej kwestii, mianowicie liczby studentów studiów doktoranckich.

Ten sam wykres bez ozdobników wygląda tak.

W ciągu 4 lat liczba doktorantów wzrosła ponad 50%. Ciekawe czy jest to globalny trend, tzn. liczba doktorantów wszędzie rośnie, ale czy też w takim tempie? Może to i dobrze. Jak wynika z rożnych podsumowań innowacyjność w Polsce jest bardzo niska. Może kształcąc wielu doktorów poprawimy przynajmniej wskaźnik ,,procentu doktorów pracujących w przemyśle”.

🙂