Beta i Bit: Pieczara Pietraszki

Pieczara Pietraszki to opowiadanie wprowadzające do świata Bety i Bita.

Opowiadanie jest już dostępne w formie elektronicznej na stronie http://biecek.pl/BetaBit/. Można je przeczytać na www lub pobrać w postaci ebooka mobi lub epub.

W niedługiej przyszłości opowiadanie będzie też dostępne w postaci papierowej.

To opowiadanie jest skierowane głównie do nastolatków.

Czytaj dalej Beta i Bit: Pieczara Pietraszki

Witaj szkoło! Dla 6 czy 7 latków? Trendy na świecie

kliknij aby powiększyć

W jakim wieku na świecie rozpoczyna się obowiązkową edukację szkolną?
W różnych krajach jest różnie, co więcej niektóre kraje decydują się na reformy.
Powyższy wykres powstał na bazie danych z Data World Bank.
Przedstawia liczbę krajów w których rok temu, 11 lat temu, 21 lat temu, 31 lat temu i 41 lat temu dzieci w określonym wieku rozpoczynały edukację.

Czytaj dalej Witaj szkoło! Dla 6 czy 7 latków? Trendy na świecie

Czy jest Pan/Pani za zniesieniem obowiązku szkolnego sześciolatków i przywróceniem obowiązku szkolnego od siódmego roku życia?

Byłem bardzo krytyczny wobec sposobu przeprowadzenia reformy obniżenia wieku rozpoczęcia edukacji szkolnej. Za kilka dni, 1 września, do pierwszych klas szkół podstawowych trafi druga tura roczników 6 i 7 latków. Tu i tam słuchać o rekordowej liczbie klas pierwszych czy zmianowym systemie prowadzenia zajęć. Znacznej części tego bałaganu można było uniknąć przez większe rozciągnięcie w czasie okresu przechodzenia na system 6 latków. Mówiłem o tym np. 3 lata temu na TEDx Kraków. Mleko się rozlało. Za kilkanaście lat sytuacja powinna się ustabilizować, gdy poszerzone roczniki przejdą przez studia i wejdą na rynek pracy.

A tu w mediach propozycja kolejnej reformy (na razie w formie pytania w referendum), tym razem powrót do obowiązku szkolnego dopiero dla 7 latków. Czy kolejna reforma, na taką skalę, w tak krótkim okresie czasu nie jest szaleństwem?

Czytaj dalej Czy jest Pan/Pani za zniesieniem obowiązku szkolnego sześciolatków i przywróceniem obowiązku szkolnego od siódmego roku życia?

Subiektywne czy obiektywne?

Dzisiejszy wpis będzie o dwóch różnych interpretacjach prawdopodobieństwa. Ale zanim do tego dojdziemy małe wprowadzenie.

Jestem z dziećmi (dla ułatwienia oznaczmy je A i B) w sklepie przed półką z chrupkami. Jak to dydaktyk na wakacjach, daje dzieciom zadanie: ,,Kupię Wam dowolne płatki pod warunkiem, że oboje potwierdzicie, że właśnie te chcecie’’. Oczywiście A wybrał płatki a, a B wybrała płatki b (a jednak oznaczenia się przydały). Wiedząc, że muszą dojść do porozumienia A (starszy) zaproponował bardzo sprytne rozwiązanie – losowanie.
Jak dotąd nie było by w tym nic dziwnego, ale zgadnijcie jednak jak to losowanie wyglądało?

Otóż A wymyślił, że zamiast stosować dziecięcą wyliczankę, będzie liczył od 1 do 50. Rozpoczął: 1 – a, 2 – b, 3 – a, 4 – b, 5 – a, ….
Zamurowało mnie.
Czy to uczciwe losowanie? Czy wynik tego losowania jest losowy?

Czytaj dalej Subiektywne czy obiektywne?

Dni nauki @ Avangarda

Kilka dni temu, podczas konwentu Avangarda, miały miejsce Dni Nauki. Początkowo nie wiedziałem czego się spodziewać po takim wydarzeniu, ale byłem, widziałem, słuchałem i gorąco polecam. Imprez popularyzujących naukę jest trochę i w Warszawie i innych miastach, ale często wpadają one w pop-naukę, jakieś wybuchające wulkany czy 60 sekundowe show w którym nie ma czasu zastanowić się co i dlaczego wybuchło.

Prezentacje na Dniach Nauki były w formacie 60/120 min. Większość, z tych które widziałem, to przegląd wyników naukowych na określony temat np. prezentacja Michała Bilewicza dotycząca zależnościom pomiędzy obserwowaną przemocą w internecie czy na filmach a zjawisku odwrażliwienia (przy okazji tej prezentacji widać było jak trudno komunikować wyniki statystyczne, ale prelegentowi się sprytnie udało). Były też prezentacje eksplorujące ciekawe wątki w literaturze, których ja nie zauważałem a miło było je nagle odnaleźć, np. Jakuba Lichańskiego Literatura i filozofia.

Impreza odbywa się co roku, wiec gorąco i w ciemno polecam przyszłoroczną.

Moja prezentacja ,,Jak na świat patrzą magicy danych, o drążeniu cyfrowego świata” znajduje się tutaj.

Transformacje zmiennych, skali, współrzędnych w ggplot2

Przygotowuję nowy rozdział ,,Esejów…”. Będzie on dotyczył The Grammar of Graphics i jej implementacji w pakiecie ggplot2. Systematyzując poszczególne elementy składni zdarzają się różne smaczki i dzisiaj o jednym z nich, czyli o tym jak na wykresach stosować transformacje.

Zacznijmy od wykresu bez żadnych transformacji. Za przykład wykorzystamy dane o irysach. Do wykresu dodamy punkty (geom_point) oraz prostą trendu liniowego (geom_smooth).

library(ggplot2)
# Uchwyt: 
# archivist::aread("pbiecek/Eseje/arepo/0fc9e4e43559336a44598117911f2e4f")
ggplot(iris, aes(Sepal.Length, Petal.Length)) + 
  geom_point() + 
  geom_smooth(se=FALSE, method="lm") +
  theme_bw()

Zobaczmy jak wygląda ta zależność po transformacji logarytmicznej.
Pakiet ggplot2 przewiduje transformacje na trzech poziomach: zmiennych, skali i układu współrzędnych. Zobaczmy czym się one różnią i jak je wykonać.

Czytaj dalej Transformacje zmiennych, skali, współrzędnych w ggplot2

PLGrid, czyli o 9+ latach obliczeń i 2 TB danych

Duże dane są najczęściej kojarzone z logami serwerów lub strumieniami danych z portali społecznościach.
Ale duże wolumeny danych są generowane też przez wysokoprzepustowe metody pomiarowe np. w biologii molekularnej.

Miałem ostatnio taki problem.
Kurierem dojechał dysk, na którym było 2 TB spakowanych danych genetycznych, wygenerowany przez metodę RNAseq. W skrócie te dane to duuuużo krótkich (~75 znaków) napisów złożonych z literek TCGA. Pierwszym krokiem analiz jest tzw. mapowanie, czyli określenie gdzie na genomie człowieka (taki długi napis o długości ponad 3 000 000 000 znaków) znajdują się te krótkie napisy (z ewentualnie drobnymi różnicami). Robi się to po to by określić, które geny są aktywne i jak bardzo. Taką informację można następnie przetwarzać bardziej klasycznymi technikami dla danych ilościowych, duże pole do popisu.

Ale aby móc się popisywać trzeba najpierw te dane mapować, a samo mapowanie potrafi być czasochłonne. Dla tych 2 TB danych, wstępne szacunki wykazały, że mapowanie całych danych wejściowych na jednym rdzeniu potrwałoby ponad 9 lat i 4 miesiące!!!
Około 80 tys. godzin obliczeniowych!!!
A ja chciałbym rozpocząć analizy po weekendzie.

Czytaj dalej PLGrid, czyli o 9+ latach obliczeń i 2 TB danych

Filmy z FilmWebu a kółka

Ostatnio pracowałem trochę nad wizualizacją danych genetycznych, a tam dosyć częstym sposobem prezentacji są okręgi generowane przez bibliotekę circlize.

Pomijając to, na ile łatwo odczytuje się cechy umieszczone na okręgu, możliwości tej biblioteki są bardzo duże. Galerię ciekawych wykresów znaleźć można tutaj.

Aby przetestować możliwości tej biblioteki, pobrałem ze strony FilmWeb informacje o polskich premierach w latach 2014 i 2015, zaznaczyłem te premiery na okręgu kolorując filmy w zależności od gatunku i zaznaczając średnią ocenę.

Jak się okazuje w czerwcu i lipcu premier jest najmniej, nic dziwnego wszyscy na wakacjach. Co ciekawe, premiery które się jeszcze nie odbyły (końcówka 2015) mają wyższe oceny niż te które już miały miejsce ;-). Czyżby najlepsze zostawiano na koniec, czy też wyobrażenia są lepsze niż realizacja?

Czytaj dalej Filmy z FilmWebu a kółka

Beta i Bit: Gra

Na 1 IX 2015 planowana jest publikacja pierwszego opowiadania wprowadzającego w świat B&B (więcej informacji pojawi się tutaj).
Równolegle trwają prace nad innymi atrakcjami z tego świata, między innymi nad edukacyjną grą komputerową.

Początkowo miał to być interaktywny quiz z interpretacji wykresów (bazujący na wykresach z różnorakich serwisów informacyjnych i raportów). Ale najpierw pomysł ten rozjechał walcem Ross Ihaka a następnie Paweł Chudzian rozbił go w proch i pył.

Nie wiem czy jest jakieś mityczne zwierzę, które odradza się z pyłu. Ale na prochach jednego pomysłu kiełkuje wiele kolejnych. Tak więc pierwsza gra, która powinna pojawić się jeszcze w tym roku to będą puzzle probabilistyczne. Sudoku dla (młodych) analityków danych. Tematem przewodnim -> poznajemy statystyki opisujące rozkład próby.

Podobnie jak w przypadku opowiadań, osoby chcące otrzymywać więcej informacji o grach i opowiadaniach ze świata Bety i Bita mogą zapisać się do newslettera przez stronę http://biecek.pl/BetaBit/.

Machine Learning a Super Mario Bros

Od jakiegoś czasu pojawiają się algorytmy trenowane z wykorzystaniem technik machine learningu do nauki gry w gry komputerowe. Co ciekawe, chodzi o budowę algorytmu (i późniejszą wsteczną analizę, czego ten algorytm się nauczył), który będzie dobrze grał w daną grę bez konieczności specyfikacji jakichkolwiek reguł związanych z daną grą. Niech algorytm wszystkich potrzebnych reguł sam się nauczy!

Czytaj dalej Machine Learning a Super Mario Bros