Od jakiegoś czasu pojawiają się algorytmy trenowane z wykorzystaniem technik machine learningu do nauki gry w gry komputerowe. Co ciekawe, chodzi o budowę algorytmu (i późniejszą wsteczną analizę, czego ten algorytm się nauczył), który będzie dobrze grał w daną grę bez konieczności specyfikacji jakichkolwiek reguł związanych z daną grą. Niech algorytm wszystkich potrzebnych reguł sam się nauczy!
Miesiąc: lipiec 2015
useR 2015 a htmlwidgets
Zastanawiałem się, czy tegoroczna konferencja useR zwiastowała jakąś gigantyczną, przełomową zmianę w świecie R.
Poprzednia konferencja useR zadziałała jak katalizator dla pakietu dplyr
i operatora %>%
. Środowisko (szczególnie kalifornijskie) znało oba rozwiązania już od kilku miesięcy, ale useR 2014 rozlał zachwyt pipe’ami ze wczesnych użytkowników na całą społeczność.
A co przełomowego objawiło się podczas useR w tym roku? Problem z rewolucjami jest taki, że nie widać ich gdy się dzieją, łatwo za to je obserwować z perspektywy czasu. Zaryzykuję jednak i pobawię się we wróżbitę.
Dla mnie czarnym koniem są htmlwidgets
.
Dlaczego?
Zagadka
[update: jak słusznie napisał Tomek, chodzi o PWE a nie EWD, poniższy tekst został uaktualniony]
Mniej więcej miesiąc temu Wysokie Obcasy miały wkładkę poświęconą badaniom edukacyjnym. Przedstawiano między innymi Porównywalne Wyniki Egzaminacyjne, a tekst opracował o ile pamiętam Instytut Badań Edukacyjnych. Jeden z wykresów szczególnie przykuł moją uwagę. Gdyby usunąć z niego część informacji to byłby świetną zagadką/materiałem do dyskusji. Więc zadajmy tę zagadkę!
PWE (Porównywalne Wyniki Egzaminacyjne) to współczynnik, który w założeniu ma normalizować trudność egzaminów w różnych latach. Za rok bazowy przyjęto 2012 i wszystkie wyniki znormalizowano tak by średnia w roku 2012 wynosiła 100. Współczynnik ma rozkład w przybliżeniu normalny, wycentrowany tak by mieć średnią 100 i odchylenie standardowe 15 w roku 2012. Mając tak wyznaczone współczynniki można porównywać średnie PWE np. pomiędzy latami, można też na tej samej skali trudności porównywać powiaty czy województwa.
Z poniższego wykresu usunąłem informację o kolorach (jest ona praktycznie zbędna). Zagadka: co na podstawie tego wykresu można powiedzieć o wynikach przedstawionej szkoły (a powiedzieć można naprawdę wiele).
useR2015 a uczenie statystyki i analizy danych
Program R przez lata rozwijał się jako narzędzie do nauki analizy danych. Świetnie się do tego nadaje i jest wykorzystywany na coraz większej liczbie uczelni i nie tylko. Im więcej miejsc, tym więcej pomysłów na to, jak przygotować środowisko w którym uczniowie mogą poznać tajniki analizy danych z użyciem R. Można pracować z gołym R i zbiorem skryptów, ale można też doświadczenie edukacyjne znacznie urozmaicić. Podczas konferencji useR 2015 wygłoszono kilka ciekawych referatów, pokazujących jak można wykorzystać R do nauki analizy danych. Poniżej przedstawię kilka tematów, które najbardziej przypadły mi do gustu.
Rabat na Codepot
Miesiąc temu pisaliśmy o warsztato-konferencji codepot.pl, która odbędzie się za niewiele ponad miesiąc w Warszawie w Szkole Wyższej Psychologii Społecznej.
Osoby zainteresowane uczestnictwem mogą skorzystać z 20% rabatu podając kod 1621K4LOV3. Większość warsztatów dotyczy kodowania, ale jest kilka poświęconych umiejętnościom miękkim i afaik dwa poświęcone analizie danych.
Sapkowski, Dukaj a trendy na Wikipedii
Krzysiek T. przesłał mi link do pakietu wikipediatrend, dzięki któremu można w prosty sposób pobrać statystyki oglądalności stron na wikipedii. Świetny pakiet! Przyjrzymy się mu bliżej. Akurat ostatnio, korzystając z wakacji, czytałem Sezon Burz (Andrzej Sapkowski cykl o Wiedźminie) i Starość aksolotla (Jacek Dukaj). Zobaczmy jak wygląda popularność haseł Wiedźmin i Aksolotl na Wikipedii.
Zaczniemy od pobrania danych. W funkcji wp_trend
wystarczy wskazać jakie strony nas interesują (tutaj Wiedźmin i Aksolotl), w którym języku (polski i angielski) oraz z jakiego przedziału czasu chcemy pobrać statystyki (zobaczmy jak wyglądała oglądalność od początku 2013 roku). Do wyrysowania tych danych wykorzystamy pakiet ggplot2. Poniższy wykres można pobrać przez uchwyt (kopiując do R) archivist::aread("pbiecek/graphGallery/25fbc8bc66bbf02fe66b7715ff53b083")
.
useR, grafy i rekomendacje filmów
Minął już ponad tydzień od (fantastycznie zorganizowanej) konferencji useR 2015. Dopiero teraz znalazłem trochę czasu by zebrać garść wrażeń. Przegląd wybranych wystąpień z krótkimi komentarzami znaleźć można w agregacie blogów rbloggers. Ograniczę się więc wrażenia do kilku tematów, ale napiszę o nich ciut więcej. Dziś będzie o tutorialu ,,Statistical Analysis of Network Data’’, który poprowadził Gábor Csárdi (Harvard). Link do materiałów: http://igraph.github.io/netuser15/user-2015.html.
Tutorial w znakomitej większości był poświęcony bibliotece igraph (http://igraph.org/) do której dostępne są łączniki z poziomu R i Pythona. Łącznik dla R to pakiet o nazwie igraph. Zgodnie z nazwą tutoriala nacisk położono na analizę danych sieciowych, ale nie zabrakło przykładów wizualizacji grafów. Zarówno statycznych, zaimplementowanych w igraph jak i dynamicznych zaimplementowanych w pakiecie networkD3 (skądinąd autorstwa Christopher Gandrud & JJ Allaire z RStudio). Obie biblioteki są przedstawione w świetnym wprowadzenie do wizualizacji sieci http://kateto.net/network-visualization autorstwa Katherine Ognyanova.
Lie factor czy pułapka percepcji?
Ponad miesiąc temu, Andrzej, statystyk z Wrocławia pracujący z wizualizacją danych, podsunął mi okładkę tygodnika Polityka sprzed wyborów. Pozwala ona na przeprowadzenie ciekawego eksperymentu na rodzinie i znajomych.
Na końcu tego wpisu znajdują się dwie grafiki, dwa rózne sposoby prezentacji danych o szacowanym poparciu dla trzech kandydatów BK, AD i PK.
Przeprowadzając eksperyment należy rodzinie/znajomym pokazać najpierw okładkę Polityki i zapytać ile razy PK i AD jest mniejszy od BK. Następnie można pokazać wykres słupkowy/paskowy i powtórzyć eksperyment.
Czy to będą te same wartości?