Machine Learning a Super Mario Bros

Od jakiegoś czasu pojawiają się algorytmy trenowane z wykorzystaniem technik machine learningu do nauki gry w gry komputerowe. Co ciekawe, chodzi o budowę algorytmu (i późniejszą wsteczną analizę, czego ten algorytm się nauczył), który będzie dobrze grał w daną grę bez konieczności specyfikacji jakichkolwiek reguł związanych z daną grą. Niech algorytm wszystkich potrzebnych reguł sam się nauczy!

Czytaj dalej Machine Learning a Super Mario Bros

useR 2015 a htmlwidgets

Zastanawiałem się, czy tegoroczna konferencja useR zwiastowała jakąś gigantyczną, przełomową zmianę w świecie R.
Poprzednia konferencja useR zadziałała jak katalizator dla pakietu dplyr i operatora %>%. Środowisko (szczególnie kalifornijskie) znało oba rozwiązania już od kilku miesięcy, ale useR 2014 rozlał zachwyt pipe’ami ze wczesnych użytkowników na całą społeczność.

A co przełomowego objawiło się podczas useR w tym roku? Problem z rewolucjami jest taki, że nie widać ich gdy się dzieją, łatwo za to je obserwować z perspektywy czasu. Zaryzykuję jednak i pobawię się we wróżbitę.

Dla mnie czarnym koniem są htmlwidgets.
Dlaczego?

Czytaj dalej useR 2015 a htmlwidgets

Zagadka

[update: jak słusznie napisał Tomek, chodzi o PWE a nie EWD, poniższy tekst został uaktualniony]

Mniej więcej miesiąc temu Wysokie Obcasy miały wkładkę poświęconą badaniom edukacyjnym. Przedstawiano między innymi Porównywalne Wyniki Egzaminacyjne, a tekst opracował o ile pamiętam Instytut Badań Edukacyjnych. Jeden z wykresów szczególnie przykuł moją uwagę. Gdyby usunąć z niego część informacji to byłby świetną zagadką/materiałem do dyskusji. Więc zadajmy tę zagadkę!

PWE (Porównywalne Wyniki Egzaminacyjne) to współczynnik, który w założeniu ma normalizować trudność egzaminów w różnych latach. Za rok bazowy przyjęto 2012 i wszystkie wyniki znormalizowano tak by średnia w roku 2012 wynosiła 100. Współczynnik ma rozkład w przybliżeniu normalny, wycentrowany tak by mieć średnią 100 i odchylenie standardowe 15 w roku 2012. Mając tak wyznaczone współczynniki można porównywać średnie PWE np. pomiędzy latami, można też na tej samej skali trudności porównywać powiaty czy województwa.

Z poniższego wykresu usunąłem informację o kolorach (jest ona praktycznie zbędna). Zagadka: co na podstawie tego wykresu można powiedzieć o wynikach przedstawionej szkoły (a powiedzieć można naprawdę wiele).

ibe3

useR2015 a uczenie statystyki i analizy danych

Program R przez lata rozwijał się jako narzędzie do nauki analizy danych. Świetnie się do tego nadaje i jest wykorzystywany na coraz większej liczbie uczelni i nie tylko. Im więcej miejsc, tym więcej pomysłów na to, jak przygotować środowisko w którym uczniowie mogą poznać tajniki analizy danych z użyciem R. Można pracować z gołym R i zbiorem skryptów, ale można też doświadczenie edukacyjne znacznie urozmaicić. Podczas konferencji useR 2015 wygłoszono kilka ciekawych referatów, pokazujących jak można wykorzystać R do nauki analizy danych. Poniżej przedstawię kilka tematów, które najbardziej przypadły mi do gustu.

Czytaj dalej useR2015 a uczenie statystyki i analizy danych

Rabat na Codepot

Miesiąc temu pisaliśmy o warsztato-konferencji codepot.pl, która odbędzie się za niewiele ponad miesiąc w Warszawie w Szkole Wyższej Psychologii Społecznej.
Osoby zainteresowane uczestnictwem mogą skorzystać z 20% rabatu podając kod 1621K4LOV3. Większość warsztatów dotyczy kodowania, ale jest kilka poświęconych umiejętnościom miękkim i afaik dwa poświęcone analizie danych.

Sapkowski, Dukaj a trendy na Wikipedii

Krzysiek T. przesłał mi link do pakietu wikipediatrend, dzięki któremu można w prosty sposób pobrać statystyki oglądalności stron na wikipedii. Świetny pakiet! Przyjrzymy się mu bliżej. Akurat ostatnio, korzystając z wakacji, czytałem Sezon Burz (Andrzej Sapkowski cykl o Wiedźminie) i Starość aksolotla (Jacek Dukaj). Zobaczmy jak wygląda popularność haseł Wiedźmin i Aksolotl na Wikipedii.

Zaczniemy od pobrania danych. W funkcji wp_trend wystarczy wskazać jakie strony nas interesują (tutaj Wiedźmin i Aksolotl), w którym języku (polski i angielski) oraz z jakiego przedziału czasu chcemy pobrać statystyki (zobaczmy jak wyglądała oglądalność od początku 2013 roku). Do wyrysowania tych danych wykorzystamy pakiet ggplot2. Poniższy wykres można pobrać przez uchwyt (kopiując do R) archivist::aread("pbiecek/graphGallery/25fbc8bc66bbf02fe66b7715ff53b083").

Czytaj dalej Sapkowski, Dukaj a trendy na Wikipedii

useR, grafy i rekomendacje filmów

Minął już ponad tydzień od (fantastycznie zorganizowanej) konferencji useR 2015. Dopiero teraz znalazłem trochę czasu by zebrać garść wrażeń. Przegląd wybranych wystąpień z krótkimi komentarzami znaleźć można w agregacie blogów rbloggers. Ograniczę się więc wrażenia do kilku tematów, ale napiszę o nich ciut więcej. Dziś będzie o tutorialu ,,Statistical Analysis of Network Data’’, który poprowadził Gábor Csárdi (Harvard). Link do materiałów: http://igraph.github.io/netuser15/user-2015.html.

Tutorial w znakomitej większości był poświęcony bibliotece igraph (http://igraph.org/) do której dostępne są łączniki z poziomu R i Pythona. Łącznik dla R to pakiet o nazwie igraph. Zgodnie z nazwą tutoriala nacisk położono na analizę danych sieciowych, ale nie zabrakło przykładów wizualizacji grafów. Zarówno statycznych, zaimplementowanych w igraph jak i dynamicznych zaimplementowanych w pakiecie networkD3 (skądinąd autorstwa Christopher Gandrud & JJ Allaire z RStudio). Obie biblioteki są przedstawione w świetnym wprowadzenie do wizualizacji sieci http://kateto.net/network-visualization autorstwa Katherine Ognyanova.

Czytaj dalej useR, grafy i rekomendacje filmów

Lie factor czy pułapka percepcji?

wybory 2015 prezydent

Ponad miesiąc temu, Andrzej, statystyk z Wrocławia pracujący z wizualizacją danych, podsunął mi okładkę tygodnika Polityka sprzed wyborów. Pozwala ona na przeprowadzenie ciekawego eksperymentu na rodzinie i znajomych.

Na końcu tego wpisu znajdują się dwie grafiki, dwa rózne sposoby prezentacji danych o szacowanym poparciu dla trzech kandydatów BK, AD i PK.
Przeprowadzając eksperyment należy rodzinie/znajomym pokazać najpierw okładkę Polityki i zapytać ile razy PK i AD jest mniejszy od BK. Następnie można pokazać wykres słupkowy/paskowy i powtórzyć eksperyment.

Czy to będą te same wartości?

Czytaj dalej Lie factor czy pułapka percepcji?

Przedpremiera: Niesamowite przygody Bety i Bita

Wczoraj zakończył się rok szkolny, więc i dzisiejszy wpis jest związany z edukacją.

Pracuję (z Magdą Chudzian) nad zbiorem opowiadań dla szeroko rozumianej młodzieży (gimnazjum+liceum). Opowiadania te w fabularnym stylu przedstawią rozmaite koncepcje związane z wnioskowaniem opartym o dane czy analizą danych. Te umiejętności warto ćwiczyć, przydają się i w życiu i na maturze. A jak pokazują różne badania, w naszych szkołach mogłoby być z nimi lepiej. W zamierzeniu i opowiadania i towarzysząca im gra edukacyjna ma te umiejętności rozwijać.

Premiera pierwszego opowiadania planowana jest na 1 września 2015. Gra i pozostałe opowiadania będą miały premierę najprawdopodobniej w 2016 roku. Szukam teraz testowych czytelników, czyli gimnazjalistów/licealistów, którzy lubią czytać i podzielą się wrażeniami z przedpremierowego dostępu do pierwszego z opowiadań.

Znacie takie ciekawe dusze?
Dajcie im znać, że wysyłając maila o tytule ‚Beta czytelnik’ na adres [Przemyslaw.Biecek na serwerze gmail.com] otrzymają bezpłatny i przedpremierowy dostęp do opowiadania ,,Jaskinia Pietraszki’’ (w formie www i ebook).

Czytaj dalej Przedpremiera: Niesamowite przygody Bety i Bita