Statystyka śledcza, powtarzalne badania, Sweave, knitr czyli useR 2012

Gdyby zadać pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub artykułach naukowych powinny być powtarzalne?” większość osób odpowiedziałaby tak. Powinno być jasne jakie są dane źródłowe i jak były przetwarzane zanim uzyskano podany wynik.

Na pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub pracach naukowych można odtworzyć?” odpowiadać powinny tylko osoby przygotowujące raporty lub próbujące odtworzyć wyniki innych. I tutaj z odpowiedziami może być różnie. W skutek wstępnych transformacji, usuwania przypadków ,,odstających”, różnych wariantów normalizacji, zawodnej pamięci bywa tak, że po roku autor nie jest w stanie odtworzyć własnych analiz, a co dopiero inna osoba. Efekt ten jest szczególnie silny gdy używa się narzędzie typu ,,wyklikaj analizę i zapomnij”.

Problem zawodnej pamięci jest mniej poważny niż problemy w analizie. Każdy jest omylny, dostęp do dokładnego opisu jak analizy zostały przeprowadzone pozwala na szybkie znalezienie i naprawienie ewentualnych błędów.

Statystyka śledcza

Statystyka śledcza to robocza nazwa dziedziny w której celem jest zbadanie czy analizę danych można odtworzyć oraz czy analiza została przeprowadzona poprawnie. Dziś na useR Kevin Coombes pokazywał przykłady błędów statystycznych znalezionych w poważnych czasopismach medycznych (takich poważnych błędów jak np pomylenie indeksu identyfikatora nazwy genu o +1 czy pomylenie etykietek zdrowy/chory!). Jak się okazuje wyśledzenie niektórych błędów w artykule kosztuje ponad 1500 godzin pracy statystyka! 1500 godzin to prawie rok pracy na pełnym etacie! A byłoby łatwiej gdyby nie trzeba było przeprowadzać odwrotnej inżynierii pracy statystyka, ale gdyby ta praca była udokumentowana. Bardzo ciekawy przypadek jednego ze znalezionych przez Kevina błędu znaleźć można w pracy http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/SR0.pdf, materiały dodatkowe pozwalające na całkowite odtworzenie tego znaleziska znajdują się tutaj http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/.

Powtarzalne badania

Na szczęście są narzędzia pozwalające na zapisanie całej analizy w postaci powtarzalnego skryptu (np. R) oraz zintegrowanie takiego skryptu z narzędziem pozwalającym na wygenerowanie prezentacji, raportu z komentarzami, publikacji, książki, podręcznika w formacie pdf, html, doc i innych. Taka integracja pozwala na dokładne sprawdzenie jaki zestaw analiz był użyty by wygenerować określony wykres / wynik / tabelę.

Do takiej integracji służą między innymi pakiety Sweave i knitr dla programu R.

Statystyk Frank Harell jest jednym z misjonarzy powtarzalnych badań, poprowadził na useR interesujące warsztaty dotyczące obu pakietów.  Obszerne materiały prezentowane podczas warsztatów i wiele ciekawych odnośników do samouczków znaleźć można na tej stronie: http://biostat.mc.vanderbilt.edu/wiki/Main/SweaveLatex.

 

,,Szkoła to strata czasu”. Czy tak o szkole myślą 15-letni Polacy?

Tak, ten tytuł bardziej przypomina tytuł z Faktu czy portalów (dez)informacyjnych, niż wyważony tytuł bloga informacyjnego ;-). Ale przynajmniej pasuje do treści prezentowanej poniżej.

W poprzednim wpisie pisałem o badaniu PISA w ramach którego w roku 2009 przepytano ponad 500 tyś 15-latków z całego świata z czego prawie 5 tyś z Polski. Pytano o bardzo wiele rzeczy, między innymi o nastawienie do szkoły. Angielskojęzyczną wersję ankiety z oryginalnymi pytaniami znaleźć można tutaj. Dwa pytania zainteresowały mnie szczególnie: Q33A i Q33B, czyli (w wolnym tłumaczeniu) ,,Szkoła uczy mnie rzeczy, które mogą być przydatne w przyszłej pracy” i ,,Szkoła to strata czasu”. Przy obu zdaniach student mógł zaznaczyć ,,bardzo się nie zgadzam”, ,,nie zgadzam się”, ,,zgadzam się”, ,,bardzo się zgadzam”. Ponieważ najczęściej ankietowani zgadzali się z pierwszym zdaniem a nie zgadzali z drugim, więc aby łatwiej przedstawić te wyniki graficznie zamieniłem obie zmienne na binarne, w pierwszym przypadku licząc jaki procent uczniów ,,bardzo się zgadza” z tym, że szkoła przygotowuje do pracy, a w drugim przypadku jaki procent uczniów ,,bardzo się zgadza”, ,,zgadza się” lub ,,nie zgadza się” z tym zdaniem (czyli wszystko poza ,,bardzo się nie zgadzam”). Inny podział poziomów na zmienne binarne nie zmieniał znacząco kolejności państw ale mniej je różnicował, dlatego nie zastosowałem binaryzacji metodą dwa za vs. dwa przeciw.

Poniżej graficzna prezentacja jak te dwa wskaźniki wyglądają dla europejskich państw.

 

Tak, to państwo w prawym dolnym rogu to Polska.

Tak, to źle wróży skoro uczniowie tak myślą o szkole.

Tak, ze zbioru kilkuset współczynników można wybrać takie w których wypadamy znacznie lepiej na tle europejskich krajów.

Tak, ten wpis miał na celu sprowokowanie Was do poklikania w te interaktywne wykresy przedstawiające inne charakterystyki uczniów.

Tak, do badania PISA jeszcze wrócimy i przedstawimy te dane bez tej sztucznej binaryzacji (jak tylko wymyślę jak to zrobić czytelnie, a może Wy macie na to jakiś pomysł?).

W ankiecie dla ucznia jest znacznie więcej pytań. Może któreś z nich szczególnie Was interesuje?

 

Badanie PISA a interaktywna grafika

 

Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.

PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.

Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.

Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.

Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?

 

 

 

Fundacja poszukuje wolontariuszy i stażystów do realizacji kilku interesujących projektów.

Uprzejmie proszę o przesłanie tej informacji osobom, które mogą być zainteresowane lub znać kogoś kto byłby zainteresowany takimi praktykami. Kandydaci na stażystów i wolontariuszy proszone są o kontakt mailowy na adres P.Biecek@mimuw.edu.pl.

Podczas proponowanego stażu można rozwinąć umiejętności związane z gromadzeniem danych (parsowanie stron, wczytywanie danych z różnych źródeł i formatów), przechowywaniem danych, eksploracją i przetwarzaniem danych (czyszczenie danych, programowanie), wizualizacją danych (statyczną i dynamiczną) oraz wyciąganiem wniosków/historii z danych. Szczególnie polecamy takie praktyki osobom zainteresowanym informatyką, statystyką, matematyką lub dziennikarstwem.

Fundacja istnieje od roku, jej misją jest zwiększanie potencjału społeczeństwa w obszarze rozumienia, czytania, przetwarzania i prezentacji danych/informacji. Wierzymy, że na solidnych danych można budować lepsze decyzje. Chcemy rozwijać umiejętności zarówno osób przetwarzających i publikujących dane jak i osób czytających zestawienia, raporty, wizualizacje. Planujemy osiągnąć ten cel wytykając błędy i niezrozumienie w komunikacji z użyciem danych, eksponując dobre przykłady solidnej komunikacji/prezentacji informacji oraz tworząc przestrzeń na wymianę doświadczeń, wrażeń, opinii.

Projekty planowane na najbliższe miesiące związane są z badaniem rzetelności i wiarogodności wykresów i wizualizacji przedstawionych przez media. Po prześledzeniu aktualnych oraz archiwalnych artykułów planujemy przygotować zestawienia pokazujące czy, a jeżeli tak to na jakie błędy i przekłamania narażony jest czytelnik. Również na ile przedstawiane liczby są wiarygodne i zgodne z alternatywnymi źródłami. Jeden z pod projektów dotyczy np. badania zgodności sondaży poparcia dla partii wykonywanych przez różne instytucje badawcze.

Trendy wśród młodzieży w odpowiedzi na pytanie: palenie albo zdrowie

 

Dzisiejszy wpis poświęcony będzie próbie odpowiedzenia na pytanie, czy palenie jest coraz bardziej czy coraz mniej popularne. Zacznę od krótkiej dygresji dotyczącej pułapek zastawionych na beztroskich analityków, a następnie przedstawię swoje wyniki. Pokażę wyniki, wspierające tezę, że stopniowo coraz mniej osób zaczyna palić, ale (niestety) zaczynają one palić coraz wcześniej. Następnie przyjrzymy się, jak te trendy wyglądają dla różnych płci. Okaże się, że wyglądają różnie.

Być może część z czytelników pamięta wpis ,,Nauka spod znaku cargo”, w którym krytykowałem liczenie średniej z roku rozpoczęcia palenia. Proponując podejście oparte o kwantyle zauważyłem, że większość z osób które palą (ponad 80%) zaczyna palenie pomiędzy 15. a 23. rokiem życia.

Odpowiedź na pytanie, kiedy palacze zaczynają palenie, to jedna sprawa, ale pytanie, ile osób pali i jak odsetek palących zmienia się w kolejnych latach, to sprawa zupełnie inna.
Badanie przeprowadzimy bazując na ankietach zebranych trzy lata temu od kilku tysięcy osób wybranych losowo z populacji Polaków pomiędzy 20 a 60 rokiem życia. Ankietowanych pytano między innymi: czy paliłeś przez przynajmniej rok, kiedy zacząłeś palić, czy paliłeś w ostatnim miesiącu. Policzenie proporcji osób, które odpowiedziały że paliły przynajmniej rok, wiele nam nie powie jeżeli nie będziemy wiedzieć w jakim wieku są ankietowani. Część z nich może nie paliła jeszcze roku w chwili przeprowadzania ankiety ale zacznie palić później. Przedstawienie proporcji palaczy jako funkcji roku urodzenia, też nie jest najlepszym pomysłem, ponieważ osoby starsze miały więcej czasu aby zacząć palić. Nie można porównać procentu osób, które przez przynajmniej rok w życiu paliły i mają 40 lat, i osób, które przez przynajmniej rok w życiu paliły, a mają lat 20. Spodziewamy się, że procent palaczy w drugiej grupie będzie niższy, dlatego że część z tych dwudziestolatków, którzy jeszcze nie palą, zacznie palić przed 40 rokiem życia. Nie ma co porównywać gruszek i jabłek.

Kilka dni temu, kiedy przedzierałem się przez tłumy na ,,Pikniku Naukowym Polskiego Radia i Centrum Nauki Kopernik” (w skrócie PNPRiCNK 😉 ) przyszła mi do głowy pewna myśl. Gdy się dłużej zastanowić jak porównywać jabłka z jabłkami, staje się to oczywiste. Nie mogę porównać procentu palących wśród osób urodzonych w 1965 z procentem osób palących urodzonych w 1985, ponieważ ci pierwsi żyją dłużej i mieli ,,więcej okazji” by zacząć palić. Ale mogę porównać procent osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1965, z procentem osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1985. Każda z tych grup miała 25 lat, by zacząć palić. Mając informacje z ankiety, o której wcześniej pisałem, dosyć łatwo takie procenty policzyć. Policzyłem je więc dla różnych ,,punktów odcięcia”. Najciekawsze jest porównanie odsetków dla 17-latków i 25-latków.

Poniższy wykres przedstawia procent osób, które mając 17 (czerwona) lub 25 (czarna linia) lat życia paliły przez przynajmniej jeden rok, jako funkcję roku urodzenia. Wokół krzywych przedstawiono punktowe przedziały ufności dla oceny tych proporcji na poziomie 95%.

Wyniki są ciekawe. Spójrzmy na czarną krzywą, odpowiada ona odsetkowi osób, które paliły przynajmniej rok przed ukończeniem dwudziestu-pięciu lat. Trend jest malejący, czyli dwudziestopięciolatków, którzy palili przez przynajmniej rok, jest coraz mniej. Przesuwając się o 23 lata w prawo na osi OX odsetek osób palących przez przynajmniej rok spadł o ponad 1/3 z 58% do 40%. Nie dziwi mnie to tak bardzo. Koniec końców kampania przeciwko paleniu jakoś działa. Kilkadziesiąt lat temu palacze byli wszędzie, w telewizji, w teatrze itp. Dziś w filmach palący nie są już tak eksponowani.

Z drugiej strony, jeżeli spojrzymy na odsetek 17 latków, którzy palili przez przynajmniej jeden rok życia, zauważymy, że tutaj trend jest przeciwny. Pośród osób urodzonych w latach 1960-1965 17 latków, którzy palili przez przynajmniej rok było poniżej 20%, a po 23 latach ten odsetek wzrósł do prawie 30%.
Zobaczmy teraz jak te trendy wyglądają dla mężczyzn a jak dla kobiet.
Na poniższym rysunku trójkąty oznaczają proporcje w grupie mężczyzn, a kropki proporcje w grupie kobiet. Symbole puste w środku odpowiadają sytuacji w grupie 17-latków, a symbole wypełnione odpowiadają sytuacji w grupie 25-latków.

Dodatkowo, by trendy były łatwiejsze do zauważenia, dodałem krzywą trendu powstałą z wygładzenia proporcji w poszczególnych grupach wiekowych.

W grupie 25-letnich mężczyzn widać spadającą proporcję palaczy. W grupie siedemnastolaktów odsetek osób palących przez przynajmniej rok utrzymuje się na stałym poziomie 30%.
Dla 25-letnich kobiet odsetek osób palących przez przynajmniej rok jest niższa niż w grupie mężczyzn. Patrząc na trend w czasie zauważymy, że spada ona wolniej niż dla mężczyzn i być może niedługo się one zrównają. Za to wśród siedemnastolatek odsetek osób palących przez przynajmniej rok palaczek bardzo szybko przyrasta, ,,doganiając” 30% obserwowane dla siedemnastolatków.

Z czym powiązać inny trend dla różnych płci? Być może koncerny tytoniowe zaczęły adresować reklamy papierosów też dla kobiet? A może macie inne pomysły na wyjaśnienie tych różnic?

 

PS: Łatwo zauważyć, że w tym wpisie jest znacznie więcej przecinków niż w poprzednich wpisach, również zdania są bardziej gładkie. Jest to zasługa pani Magdaleny Ł., która podjęła się eksperymentalnie funkcji pierwszego czytającego. Serdecznie dziękuję.

Edukacja statystyczna a matura z matematyki poziom podstawowy 2012

Wczoraj maturzyści pisali egzamin maturalny z matematyki na poziomie podstawowym. Arkusze egzaminacyjne można znaleźć np. tutaj. Poniżej, chciałbym się podzielić kilkoma gorącymi wrażeniami z lektury zadań maturalnych.

Ponieważ interesuje mnie edukacja statystyczna, ponieważ uważam, że znajomość statystyki jest niezbędna, dlatego też byłem ciekawy czy po maturzyście można oczekiwać podstawowej choć znajomości statystyki, losowości, zmienności itp.

Przeglądając listę zadań na poziomie podstawowym okryłem niestety że żadne z nich nie dotyczy statystyki. Jedno jedyne (zadanie 31 za 2 pkt) dotyczy rachunku prawdopodobieństwa. To oczywiście wynika z tego, że statystyki w liceum się nie uczy.

A szkoda.

Bardzo lubię trygonometrię, geometrię, kombinatorykę i zresztą całą matematykę, ale czy nie jest ważniejsze by we współczesnym świecie uczyć w liceum statystyki? Czy nie bardziej przydatne byłoby uczenie zrozumienia co to trend, co to ryzyko, co to wariancja?

Szkoła Infografiki a moja prezentacja

W poprzedni czwartek 22 marca miałem przyjemność poprowadzić godzinną prezentację nt. dobrych i złych wykresów. Prezentacja miała miejsce w ramach warsztatów organizowanych przy Szkole infografiki. Szkoła infografiki jest projektem prowadzonym przez Centrum Cyfrowe projekt” Polska.

Spotkanie odbyło się w klubokawiarni na Chłodnej 25. Okazuje się, że w piwnicach jest sala na około 50 osób z projektorem i ekranem. Kawa jest bardzo dobra i znacznie tańsza niż w centrum. Więc wygląda to jak bardzo ciekawe miejsce na spotkania warsztatowe niewielkich grup. Polecam.

Mnie się spotkanie bardzo podobało, choć jako prezentujący mogę mieć spaczone wrażenie. Zainteresowanych osób było sporo, ścisłowców było mało ale byli, byli też prawdziwi dziennikarze, tym ciekawiej spojrzeć na jakiś temat z innej strony. Kolejną prezentację, mniej więcej za miesiąc, ma poprowadzić specjalistka od grafiki i informacji z ASP w Katowicach, również polecam.

Więcej informacji Szkole infografiki i podobnych projektach można znaleźć tutaj.

Więcej informacji o think-tanku (zna ktoś jakieś dobre, czyli niedosłowne, tłumaczenie?)  Centrum Cyfrowe projekt: Polska tutaj.

Więcej informacji o klubokawiarni na Chłodnej znajduje się tutaj.

Klikając na poniższy slajd można pobrać moją prezentację (uwaga, ponad 10MB).

Spotkanie było też nagrywane i pewnie na stronach Centrum pojawi się kiedyś odnośnik do nagrania.

AKTUALIZACJA: Link do nagrania z warsztatów.

 

Ekonomia i markerting, liczba doktorantów a wykresy

Dzisiejszy wpis prezentuje jedną z nagrodzonych prac na podejrzaną wizualizację. Konkurs jest opisany dokładnie w tym wpisie (btw: zostały mi jeszcze trzy komplety gadżetów do rozdania za wskazania interesujących wykresów).

Tym razem przyjrzymy się wykresom z miesięcznika Uniwersytetu Ekonomicznego w Krakowie ,,Kurier UEK”. Szczególnie tym ze stron 14-15.

Zacznijmy od ilustracji liczby uczelni z którą współpracował UEK.

Wykres pokazuje, że liczba współpracujących placówek rośnie i rośnie. Wrażenie wzrostów zostało podkręcone, kilkoma ,,sztuczkami”

  • perspektywą, wykres jest tak obrócony, że ten sam wynik liczbowy wyglądałby jak wzrost,
  • zmienioną osią OY, wybraną tak by uwypuklić najmniejsze zmiany,
  • dorysowaną jaśniejszym kolorem parabolą, która jest wyłącznie estetycznym zabiegiem wzmacniającym wrażenie wzrostów.

Wzrosty są, ale ten wykres je uwypukla do granic przyzwoitości. Zobaczmy jak wyglądałby ten sam wykres bez ozdobników.

 


Wzrosty nie są już takie spektakularne. Jest wyraźna tendencja wzrostowa, ale po osi OY widać, że wzrost wyniósł około 15% przez 5 lat.

 

Kolejny wykres, który mnie zainteresował to pozycja polskich uczelni ekonomicznych w rankingu Webometrics 2012.

UE Kraków ma czegoś więcej niż pozostałe uczelnie ekonomiczne i wyraźnie jest ,,wyżej”. Nie jest niestety wyjaśnione czym są punkty z tego wykresu. Nie jest to pozycja w rankingu, gdyż po pierwsze tak wysoko polskie uczelnie w rankingach nie stoją a po drugie UAE nie chwaliłby się pozycją niższą niż pozostałe szkoły. Nie udało mi się niestety odszyfrować co ta liczba oznacza.

Ranking Webometrics przedstawia wyniki w różnych aspektach oraz pozycję danej uczelni w globalnym światowym rankingu. Wiele polskich uczelni jest w tym rankingu uwzględnianych, wybrałem 10 ekonomicznych i przygotowałem taki oto wykresik.

Kolumna ,,World Rank” odpowiada pozycji w globalnym światowym rankingu uczelni, a pozostałe cztery kolumny odpowiadają pozycjom w rankingach jeżeli uwzględnić jedynie określony aspekt. Odpowiednio Rich.Files to ranking oparty o liczbę dokumentów .doc, .pdf., .ppt itp znalezionych przez Googla wskazujących na tą uczelnię, ,,Scholar” to ranking bazujący na wynikach z Google Scholar, ,,Size” to ranking bazujący na liczbie stron zidentyfikowanych przez Googla, ,,Visibility” to ranking oparty na liczbie zewnętrznych odnośników o stron danej uczelni. Na osi OY przedstawiono miejsce w rankingu światowym (yupii, dwie uczelnie ekonomiczne są w piątym tysiącu na świecie :-P).

Co ciekawe porównując dwa powyższe rysunki, okazuje się, że UEK nie jest drugie w kategorii World.Rank i na niższych pozycjach w pozostałych kategoriach. Wyprzedza ją tylko prywatna Wyższa Szkoła Lipińskiego, ale ta nie znalazła się na wykresie z Kuriera UEK.

W każdym razie po raz kolejny widzimy, że wybierając konkurentów i kategorię zawsze można znaleźć kombinację kryteriów w których jest się najlepszym.

 

I ostatni wykres w dzisiejszym zestawieniu, ma te same wady co pierwszy z prezentowanych, ale dotyczy ciekawej kwestii, mianowicie liczby studentów studiów doktoranckich.

Ten sam wykres bez ozdobników wygląda tak.

W ciągu 4 lat liczba doktorantów wzrosła ponad 50%. Ciekawe czy jest to globalny trend, tzn. liczba doktorantów wszędzie rośnie, ale czy też w takim tempie? Może to i dobrze. Jak wynika z rożnych podsumowań innowacyjność w Polsce jest bardzo niska. Może kształcąc wielu doktorów poprawimy przynajmniej wskaźnik ,,procentu doktorów pracujących w przemyśle”.

🙂

SFI, TED, IBM i konkursy

 

W skrócie dzisiejszy wpis składać się będzie z peanów zachwytu nad jakością organizacji 8 Studenckiego Festiwalu Informatycznego (SFI). Później zejdę na temat TEDów organizowanych w Krakowie a na koniec przedstawię dwa małe konkursiki, które ogłosiłem na SFI. Wciąż są otwarte i umożliwiają wygranie kilku gadżetów od firmy IBM.

SFI

Ośmy Studencki Festiwal Informatyczny rozpoczął się w ostatni czwartek a zakończył w sobotę. Miałem przyjemność w piątek rano opowiedzieć o analizie małych zbiorów danych, powiedzmy o rozmiarach do kilku megabajtów (tutaj przedstawiłem kilka wykresów prezentowanych na tym blogu), zbiorów danych o średniej wielkości, powiedzmy do gigabajta (tutaj opowiedziałem o kilku pomysłach na analizę danych z systemu USOS) i o analizie zbiorów danych o rozmiarach liczonych w tera czy peta bajtach (tutaj opowiedziałem o analizach danych z technik genotypowania kolejnej generacji, to źródło naprawdę dużych danych). Materiały do mojej prezentacji można pobrać klikając na poniższy odnośnik.

 

W czasie trwania festiwalu miałem okazję przyjrzeć się stronie organizacyjnej i też porozmawiać o niej z organizatorami. I muszę przyznać, że zostawiła ona na mnie spore wrażenie. Grono organizatorów składa się z ponad 30 osób, które są świetnie skoordynowane, co widać chociażby po tym, że każdy wie co należy do jego obowiązków. Niby sprawa oczywista, ale tak rzadko spotykana w tak dużych grupach. Organizatorzy zorganizowali po raz kolejny dużej wielkości festiwal, bezpłatny dla uczestników, moim zdaniem jeżeli chodzi o organizację to poprowadzony na poziomie największych międzynarodowych konferencji. Była i krótkofalowa komunikacja pomiędzy organizatorami i hostessy, radio, prezentacje nagrywane na wideo, zapowiedź obróbki wideo na poziomie VideoLectures, baloniki ;), wielkie banery na gmachach głównych krakowskich uczelni, aktywny bloga itp. Wszystko robione przez studentów i dla studentów. Ponoć to największe tego typu wydarzenie w tej części Europy (niestety zapomniałem o jak dużą część chodziło). W skrócie: świetna robota.

TED

Na festiwalu gęsto było od energii do tworzenia start-upów, niestandardowych rozwiązań, różnych innowacyjnych projektów. Nikt tu (tam?) nie miał wątpliwości, że Kraków jest miejscem gdzie najlepsze pomysły rodzą się i ścierają ze sobą. Dowiedziałem się między innymi o bardzo aktywnym TEDxKraków (37 prezentacji na stronie), o TEDxKrakow Cinema (nie słyszałem o tym wcześniej, w kinie ludzie spotykają się by obejrzeć np. 3 TEDy 20minutowe a później na ich temat dyskutują, brzmi super) i innych podobnych przedsięwzięciach. Szczególnie ten TEDxKrakow Cinema brzmi jak coś co warto przeżyć.

IBM

Przed wyjazdem dostałem od firmy IBM trochę gadżetów do rozdania w ramach konkursów. Konkursy są prywatną inicjatywą nie będącą częścią festiwalu. Konkursy są dwa, rozpoczęły się w piątek i wciąż trwają bo i zapas gadżetów jest całkiem pokaźny. Gorąco więc zapraszam do wzięcia w obu konkursach udziału, można wygrać pendrive’y i inne ciekawe gadżety (niestety odbiór tylko osobisty). Ale nagroda to nie wszystko, moim zdaniem konkursy są po prostu bardzo ciekawe i warto się zmierzyć z postawionymi w nich zadaniami.

Konkurs 1.

Dotyczy znalezienia na stronach gazet i portali informacyjnych grafik bardzo złych, przekłamujących rzeczywistość albo grafik barzdo dobrych, zapierających dech w piersiach pomysłowością i informacyjnością.

Konkurs 2.

Dotyczy pomysłu co można ciekawego zrobić mając dostęp do wszystkich danych z USOSa. Jakiego rodzaju informacja tam zawarta może okazać się przydatna szerokiej braci studentów?

Każda interesująca/ciekawa odpowiedź jest nagradzana (oferta ważna do wyczerpania zasobów, których jeszcze trochę jest). Podczas festiwalu otrzymałem kilka ciekawych odpowiedzi i opiszę je kiedyś przy okazji na blogu.

Oba konkursy są szerzej opisane w prezentacji pdf podlikowanej powyżej.

 

Szkoła Infografiki, 22 III 2012, klubokawiarnia Chłodna 25

Centrum Cyfrowe organizuje czteromiesięczne bezpłatne szkolenie o nazwie ,,Szkoła inforgrafiki”. Więcej o tym projekcie przeczytać można tutaj.

W ramach tej szkoły planowane są między innymi comiesięczne otwarte dla wszystkich pogadanki/przentacje. Poproszono mnie o poprowadzenie najbliższej, mniej więcej godzinnej pogadanki, która rozpocznie się 22 marca o godzinie 19 w klubokawiarni Chłodna 25.
No cóż, spróbujmy!
Zgłoszony temat to ,,Nie daj się oszukać wykresom”. Planuję pokazać kilka złych wizualizacji, przy czym pisząc złych mam na myśli wprowadzających w błąd. Do tego kilka popularnych reguł na co uważać przygotowując infografikę oraz kilka grafik, które wykonane były lata temu a wciąż są flagowym przykładem czytelnej reprezentacji złożonych danych.

Poniżej umieszczam pierwsza stronę prezentacji.