Drugi rok, trzysetny wpis

Tym rysunkiem z bloga pana Dąbrowskiego chciałbym rozpocząć trzysetny wpis, jednocześnie kończący drugi rok działalności zarówno bloga, jak i fundacji.
Po drodze było 300 wpisów, ponad 400 tysięcy wizyt, ponad 2 miliony odsłon (poniżej miliona odsłon unikalnych) i powoli rosnące grono (obecnie około 500) stałych czytelników.

Do stałych czytelników trafiamy głównie na trzy sposoby: przez strumień RSS (większość), stronę Fundacji na Facebooku lub bezpośrednio przez stronę www (RSS i FB przekierowują koniec końców na stronę www). Strona na Facebooku okazuje się być umiarkowanie dobrym sposobem na poszerzanie zasięgu niektórych wpisów. Sporadycznie wpisy trafiają na takie serwisy jak strims czy wykop, co bardzo powiększa ich zasięg. Czasem zaskakuje mnie, które wpisy trafiają do szerszej publiki. Jeżeli istnieje jakaś reguła, to taka, że to proste wpisy lub te dotyczące edukacji mają większe szanse na przebicie się poza grono stałych czytelników. W przypadku tekstów o edukacji to cieszy, ponieważ jest to moim zdaniem ważny temat.

Jako ciekawostkę zdradzę, że profil naszej fundacji na Facebooku zdobywa szybciej “lajki” niż profil pani Minister Nauki i Szkolnictwa Wyższego, Barbary Kudryckiej (afaik już byłej, profil pani minister jest starszy więc jeszcze ponad 100 “lajków” przed nami). Oczywiście oba te profile razem wzięte są daleko za liczbą “lajków” zbieranych przez słodkie zdjęcia kotów ale i “target” jest inny.
Tyle z ciekawostek.

W ostatnim roku otrzymaliśmy znaczną pomoc od wolontariuszy. Zarówno przy realizacji projektów analizy danych, organizacji strony, korekcie tekstów czy przy projektach graficznych. Łącznie pomogło nam kilkanaście osób i to traktujemy jako największy sukces. Często zupełnie nieznajome osoby, bez żadnego wynagrodzenia, poświęcają dużo czasu naszym projektom. Bardzo za to dziękujemy.

Podsumowując te 300 wpisów. Były wpadki, były i ciekawe odkrycia – było różnorodnie. Trochę się działo.
Na każdej wpadce i na każdym sukcesie czegoś się nauczyliśmy.

Na kolejny rok planujemy zmianę profilu działania.
Zamiast na blogu, większość energii skupi się na realizacji kilku “flagowych” projektów, związanych z edukacją w dziedzinie zrozumienia i analizy danych i edukacją w ogóle.
Będzie mniej wpisów i pewnie będą ukazywać się mniej regularnie i będą dotyczyły realizowanych projektów.

Będziemy też zbierać środki finansowe by móc organizować warsztaty, hakatony i inne tego typu przedsięwzięcia wokół realizowanych projektów.

Niedługo napiszę o pierwszym z tych projektów, myślę że będzie on bardzo ciekawy.

Takie wydarzenia lubimy: PAZUR i Offtopicarium

W najbliższym czasie odbędą się dwa ciekawe wydarzenia organizowane przez entuzjastów dla entuzjastów. Poniżej znajdują się zaproszenia na każde z nich, przygotowane przez organizatorów. Oby takich imprez było więcej!

Szczegóły poniżej, a w skrócie:

  • PAZUR (Poznański Akademicki Zlot Użytkowników R) to popołudniowe spotkanie użytkowników programu R organizowane w Poznaniu już 13 grudnia.
  • Offtopicarium to nie-konferencja dla 'tych, którym się chce’, która odbędzie się na początku stycznia. Rejestracja na to zdarzenie zamyka się 1 grudnia (koniec tego tygodnia).

Offtopicarium

Czwarte Offtopicarium to luźna nie-konferencja dla młodych naukowców z różnych dziedzin (zwłaszcza doktorantów), programistów, aktywistów społecznych, i wszystkich innych z pasją i pomysłami.

Kolejna, już czwarta, edycja obędzie się 3-5. stycznia 2014, w miejscowości Słomczyn pod Warszawą.
Z kluczowych rzeczy:
– ok 30 uczestników, każdy jest mówcą,
– 20 min na wystąpienie + 20 min na dyskusję,
– „nie ma rzeczy nie na temat, są co najwyżej nieciekawe”,
– domyślnym językiem jest j. angielski, ale można też mieć referat po polsku,
– inicjatywa w pełni oddolna (uczestnicy kształtują wydarzenie).
Przykładowe tematy z poprzednich edycji: „Open Science and Science 2.0”, „Diary studies 101, or what is writing diaries all about”, „Death over Holocene – the science of death and decay”, „Roguelike and roguelike-like games”, „Does 2x bigger mean 2x better?”, „Physicist on the stock market”.

Więcej informacji:
http://offtopicarium.wikidot.com/ (zgłoszenia do 1. grudnia 2013.)

PAZUR, czyli Poznański Akademicki Zlot Użytkowników R

SKN Estymator po ponad rocznej przerwie organizuje kolejne spotkanie z cyklu PAZUR!

Najbliższy Poznański Akademicki Zlot Użytkowników R odbędzie się 13 grudnia 2013 roku (piątek) o godzinie 18:00. Zapraszamy wszystkich zainteresowanych wykorzystaniem tego narzędzia w dowolnej dziedzinie nauki czy biznesu; zarówno studentów, wykładowców jak i osoby spoza uczelni. Jest to doskonałe miejsce do wymiany doświadczeń oraz prowadzenia ciekawych dyskusji.

Spotkanie odbędzie się w Przestrzeni Współpracy ZOO (http://www.coworkingzoo.pl/).
ul. Zwierzyniecka 20
60-814 Poznań
II piętro

Plan spotkania:
18:00 – 18:10 – Rozgrzewka (Maciej Beręsewicz i Łukasz Wawrowski, UEP)
18:10 – 19:00 – Marketing Maps with R and Shiny (Adolfo Alvarez, Analyx)
19:00 – 19:10 – Przerwa kawowa
19:10 – 20:00 – Dynamiczne modele liniowe w badaniach okresowych (Kamil Wilak, UEP)
20:00 – ??:?? – Spotkanie integracyjne (sponsorowane przez Revolution Analytics)

Informacje na temat poprzednich edycji spotkania można znaleźć na stronie:
http://thinking-in-r.blogspot.com/search/label/PAZUR

Wydarzenie na facebook.com:
https://www.facebook.com/events/737652016258651/

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Indeks otwartości danych

Czasem odnoszę wrażenie, że najłatwiejszym sposobem zwrócenia na coś uwagi jest zbudowanie wskaźnika, zrobienie na jego podstawie rankingu i dowodzenie, że pozycje w rankingu można zmienić robiąc to i to. Tłumaczy to rosnącą popularność różnorakich indeksów/wskaźników, nawet takich, które niewiele pokazują.

Dziś o indeksie, który coś jednak pokazuje i to w ciekawy sposób.

Indeks Otwartości Danych (The Open Data Index) jest wyznaczany na podstawie informacji o łatwości dostępu do rozmaitych danych o tym co się dzieje w kraju. Począwszy od dostępności informacji o rozkładach jazdy, przez informacje o budżecie państwa po informacje o emisji zanieczyszczeń. Badane jest zarówno to, czy jest publiczny dostęp do określonej informacji, czy jest ona aktualizowana, na jakiej licencji jest dostępna, czy jest możliwa do automatycznego przetwarzania (tu był dowcip o GUS, ale usunąłem bo był smutny).

Polska w tym indeksie jest 32. pozycji na 70 krajów. Dwa oczka nad Chinami. Sześć oczek nad Niemcami z dużym bagażem dostępności typu ,,unclear”.

Co jest dostępne a co nie można zobaczyć na bardzo pomysłowej wizualizacji na stronie https://index.okfn.org/country/.

Przeglądając informacje o tym co jest dostępne a co nie, można mieć wątpliwości co do kompletności dostępnych źródeł, ale prawdopodobnie ta będzie rosła i prezentowane dane będą coraz rzetelniejsze.

Miło, że ktoś kataloguje potencjalne źródła danych i (mam nadzieje) będzie agregował linki do tych krajowych źródeł w miarę jak zacznie ich przybywać.

System ewaluacji oświaty, czyli gdzie znajdę dobrą podstawówkę

W styczniu, w tym wpisie, przedstawiałem mapę Warszawy, z zaznaczonymi podstawówkami, z naniesioną informacją o średnim wyniku z egzaminu szóstoklasisty w danej szkole.

Problem z tymi wynikami jest taki, że średnia z egzaminu jest słabym wyróżnikiem dobrej szkoły. Wyniki ucznia zależą od wielu czynników, w tym od zamożności i poziomu edukacji rodziców (pisaliśmy często o ,,efekcie rodzica”), oraz od wielu środowiskowych czynników.
Aby wygrać w rankingu na szkołę o najwyższej średniej, szkoła powinna poświęcić wiele energii na przyciągnięcie dobrych ,,dobrze rokujących” uczniów, sama umiejętność przyciągania takich uczniów może być ważniejsza dla końcowego miejsca w rankingu niż jakość edukacji.

Wybierając szkołę dla dziecka (a stoję właśnie przed takim wyborem), zamiast patrzeć na średnie wyniki z egzaminów, wolałbym przyjrzeć się sposobowi w jaki nauczyciele uczą dzieci. Jak wygląda interakcja pomiędzy nauczycielami i szkołą a uczniem i rodzicami.

Czytaj dalej System ewaluacji oświaty, czyli gdzie znajdę dobrą podstawówkę

Co z tymi sześciolatkami, czyli kto wie lepiej co jest dobre dla dzieci

Dziś w sejmie głosowanie nt. referendum. Z tej okazji w różnych mediach, różne osoby przekonują co jest lepsze dla rodziców, dzieci i gospodarki.

Przytaczane są przy okazji różne argumenty, z których argumentem za obniżeniem roku wejścia w system edukacyjny jest (oficjalnie) to, że w innych krajach dzieci zaczynają naukę wcześniej, (nieoficjalnie) problem z rynkiem pracy, który albo wcześniej zostanie zasilony nowymi pokoleniami albo szybciej wpadnie w problemy. Argumentem przeciw jest (domniemane) nieprzygotowanie niektórych placówek na przyjęcie sześciolatków i (domniemane) niedostosowanie programu do możliwości sześciolatków. Piszę domniemane, ponieważ nie wiadomo, rząd zlecił badanie stopnia przygotowania, ale nie chciał udostępnić danych (od trzech miesięcy staramy się te dane uzyskać i nic).

Opcja, by to rodzice decydowali kiedy ich dziecko powinno rozpocząć szkołę nie wchodzi w grę na dłuższą metę. Z jakiegoś powodu, w demokratycznym społeczeństwie panuje przekonanie, że większość i tak wybrałaby źle. Ciekawy paradoks naszej demokracji.

Mnie w tych wszystkich przepychankach brakuje argumentacji opartej o dane z podaniem źródeł tych danych. A danych, które mogą być pomocne jest wiele. Przyjrzyjmy się liczbom z najnowszego raportu ,,Education at a Glance 2013”. Tabla C1.1 pokazuje w jakim wieku 90% dzieci znajduje się w systemie edukacyjnym. Graficzna prezentacja tej tabeli jest następująca:

Jak widzimy, w większości krajów edukacja 90% dzieci rozpoczyna się wcześniej niż w Polsce. Ale czy to argument za tym, że to dobry ruch?

Nie tak dawno w tym wpisie oglądaliśmy wyniki badań umiejętności dorosłych PIAAC, z których wynika, że najgorzej w badaniu kompetencji dorosłych wypadają mieszkańcy Włoch i Hiszpanii, czyli krajów gdzie w system edukacyjny wchodzi się najwcześniej. Korea, Finlandia to przykłady krajów, gdzie w system edukacyjny wchodzi się późno, ale mimo to dorośli w badaniach kompetencji wypadają bardzo dobrze.

To oczywiście tylko cztery wybrane przykłady, bez zagłębiania się w specyfikę sytuacji gospodarczej i polityki edukacyjnej tych krajów. Nie jestem tutaj adwokatem stwierdzenia, że im wcześniej wychodzi się z systemu edukacji tym gorzej. Pokazuję jedynie, że sam fakt, że wiele krajów robi coś inaczej, to wcale nie znaczy, że robi to lepiej.

A mając dane z wielu krajów, zbierane pieczołowicie przez takie organizacje jak OECD, można by z tych danych zrobić użytek.

Drugie wydanie ,,Analizy danych z programem R”

Miło mi poinformować, że dwa lata po pierwszym wydaniu ,,Analizy danych z programem R. Modele liniowe i mieszane.” dostępne jest już drugie wydanie tej książki.

Poza wersją papierową dostęp do wersji elektronicznej jest możliwy poprzez wypożyczalnie elektroniczną ibuk.pl (dzisiaj jest tam tylko pierwsze wydanie, niedługo drugie będzie również dostępne elektronicznie).

W tej książce, na przykładach, przedstawiłem często spotykane zastosowania modeli liniowych, takie jak: regresja, analiza wariancji, modele mieszane z jednym, dwoma, wieloma efektami, zagnieżdżonymi, przecinającymi się itp. Przykłady oparte są o dane, na których pracowałem w ramach rozmaitych projektów, a na których teraz czytelnik możne samodzielnie eksperymentować. Te dane są dostępne w pakiecie PBImisc dla programu R.

W czasie tych dwóch lat pierwsze wydanie zostało sprawdzona w boju, jako podstawowy podręcznik dla dwóch edycji monograficznego wykładu z ,,Analizy danych z użyciem modeli liniowych i mieszanych”, na wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. W czasie tych wykładów trafiłem na bardzo dociekliwych studentów (miód na serce prowadzącego), którzy wyśledzili wiele usterek, literówek, mniejszych i większych błędów (niektórych bardzo wstydliwych). A ponieważ studentami byli i matematycy i informatycy i biolodzy i przedstawiciele innych obszarów zastosowań, zarówno na etapie studiów magisterskich jak i doktoranckich, podręcznik został prześwietlony z różnych perspektyw (z pewnością jest tam jeszcze wiele rzeczy do poprawienia, ale mam nadzieje, że już znacznie mniej niż w pierwszym wydaniu).

Wiele ciekawych i szczegółowych uwag otrzymałem też od czytelników pierwszego wydania spoza mojego (do czerwca) wydziału. Za wszystkie bardzo dziękuję, były one bardzo przydatne, mam nadzieję, że udało mi się je poprawnie uwzględnić w nowym wydaniu.

W drugim wydaniu nie ma nowych rozdziałów. Lista większości wprowadzonych zmian znajduje się w erracie do pierwszego wydania. W szczególności w tej książce nie są omówione (poza drobnymi wzmiankami) modele z ważonymi obserwacjami, modele uogólnione niegausowskie, metody estymacji bazujące na technikach MCMC i inne niż omówione współczesne rozszerzenia modeli liniowych. Związane jest to z moim przekonaniem, że jeżeli uda się zrozumieć sedno tego jak działają modele liniowe i mieszane, jak wygląda modelowanie i z jakimi zagadnieniami się spotykamy, wtedy uzupełnianie informacji o różne modyfikacje będzie zdecydowanie łatwiejsze. Dużym problemem jest jednak (moim zdaniem) uczenie się na przykładach zaczynając od bardzo skomplikowanych przykładach modeli uogólnionych z wieloma czynnikami. W takich sytuacjach na wynik wpływ ma tak wiele elementów, że bez doświadczenia zebranego na prostszych modelach nie sposób nad wszystkimi pokrętłami zapanować i cokolwiek wyjaśnić. Aby poznać ciekawy świat modeli liniowych zacznijmy od przykładów, w których mamy dużą (nigdy pełną) kontrolę nad pokrętłami wpływającymi na wynik.

Link do księgarni PWN w której znajduje się drugie wydanie jest tutaj.

Link do wypożyczani IBUK w którym znajduje się pierwsze wydanie jest tutaj.