Jak oni głosowali? MiNI data-hackaton 26.09.2015

Piotr Smuda i Tomasz Mikołajczyk, w ramach projektu grupy MI2, przygotowali pakiet SejmRP pozwalający na pobieranie danych o głosowaniach oraz wypowiedziach posłów VII kadencji Sejmu. Pakiet niedługo trafi na CRAN, ale póki co można instalować go z githuba. Dane są przechowywane w bazie danych, można więc odczytywać je również w innych językach, np. pythonie.

Mając tak ciekawe dane, aż chciałoby się im bliżej przyjrzeć. Zróbmy to wspólnie i wymieńmy doświadczeniami / obserwacjami / wnioskami. Na 26 września (sobota) planujemy małe spotkanie pod hasłem ,,Jak oni głosowali?” na wydziale MiNI PW poświęcone analizom i wizualizacji tych danych.

Czytaj dalej Jak oni głosowali? MiNI data-hackaton 26.09.2015

Dzień popularyzacji matematyki na Forum Matematyków Polskich

Jutro na MiNI PW rozpoczyna się Forum Matematyków Polskich.
Na trzeci dzień (czyli czwartek) zaplanowany jest Dzień popularyzacji matematyki, czyli zajęcia dla gimnazjalistów i licealistów popularyzujące matematykę.

Nie zabraknie i statystyki!

W czwartek w godzinach 14.35-15.35 Andrzej Dąbrowski poprowadzi referat „Zobaczyć dane i…”.
A w godzinach 15.05-15.35 ja (Przemysław Biecek) poprowadzę referat „Eksploracja danych – czyli co ciekawego można odczytać z 10^10 liczb”.

Czytaj dalej Dzień popularyzacji matematyki na Forum Matematyków Polskich

Beta i Bit: Pieczara Pietraszki

Pieczara Pietraszki to opowiadanie wprowadzające do świata Bety i Bita.

Opowiadanie jest już dostępne w formie elektronicznej na stronie http://biecek.pl/BetaBit/. Można je przeczytać na www lub pobrać w postaci ebooka mobi lub epub.

W niedługiej przyszłości opowiadanie będzie też dostępne w postaci papierowej.

To opowiadanie jest skierowane głównie do nastolatków.

Czytaj dalej Beta i Bit: Pieczara Pietraszki

Filmy z FilmWebu a kółka

Ostatnio pracowałem trochę nad wizualizacją danych genetycznych, a tam dosyć częstym sposobem prezentacji są okręgi generowane przez bibliotekę circlize.

Pomijając to, na ile łatwo odczytuje się cechy umieszczone na okręgu, możliwości tej biblioteki są bardzo duże. Galerię ciekawych wykresów znaleźć można tutaj.

Aby przetestować możliwości tej biblioteki, pobrałem ze strony FilmWeb informacje o polskich premierach w latach 2014 i 2015, zaznaczyłem te premiery na okręgu kolorując filmy w zależności od gatunku i zaznaczając średnią ocenę.

Jak się okazuje w czerwcu i lipcu premier jest najmniej, nic dziwnego wszyscy na wakacjach. Co ciekawe, premiery które się jeszcze nie odbyły (końcówka 2015) mają wyższe oceny niż te które już miały miejsce ;-). Czyżby najlepsze zostawiano na koniec, czy też wyobrażenia są lepsze niż realizacja?

Czytaj dalej Filmy z FilmWebu a kółka

Machine Learning a Super Mario Bros

Od jakiegoś czasu pojawiają się algorytmy trenowane z wykorzystaniem technik machine learningu do nauki gry w gry komputerowe. Co ciekawe, chodzi o budowę algorytmu (i późniejszą wsteczną analizę, czego ten algorytm się nauczył), który będzie dobrze grał w daną grę bez konieczności specyfikacji jakichkolwiek reguł związanych z daną grą. Niech algorytm wszystkich potrzebnych reguł sam się nauczy!

Czytaj dalej Machine Learning a Super Mario Bros

useR 2015 a htmlwidgets

Zastanawiałem się, czy tegoroczna konferencja useR zwiastowała jakąś gigantyczną, przełomową zmianę w świecie R.
Poprzednia konferencja useR zadziałała jak katalizator dla pakietu dplyr i operatora %>%. Środowisko (szczególnie kalifornijskie) znało oba rozwiązania już od kilku miesięcy, ale useR 2014 rozlał zachwyt pipe’ami ze wczesnych użytkowników na całą społeczność.

A co przełomowego objawiło się podczas useR w tym roku? Problem z rewolucjami jest taki, że nie widać ich gdy się dzieją, łatwo za to je obserwować z perspektywy czasu. Zaryzykuję jednak i pobawię się we wróżbitę.

Dla mnie czarnym koniem są htmlwidgets.
Dlaczego?

Czytaj dalej useR 2015 a htmlwidgets

Systemy rekomendacyjne, USOS i ‚Techniki wizualizacji danych’

Na wielu polskich uczelniach działa Uniwersytecki System Obsługi Studentów (w skrócie USOS). Działa i zbiera dane o różnych aspektach życia na uczelni, w tym o wynikach rejestracji na kursy, ocenach z kursów, wynikach ankiet itp. Z punktu widzenia informatyka to ciekawy i złożony system informatyczny. Z punktu widzenia statystyka, USOS to kopalnia interesujących historii i pole do testowania interesujących pomysłów.

Jednym z takich pomysłów jest rekomendowanie studentom kursów obieralnych/wybieralnych. Na wydziale Matematyki, Informatyki i Mechaniki UW, pula takich kursów obieralnych/wybieralnych jest duża. Tytuły większości kursów bardzo atrakcyjne, więc jak wybrać te najciekawsze?

Używając danych!

O ile jednak trudno określić czym jest ,,najciekawszy” kurs, można lepiej lub gorzej rekomendować kurs, który prawdopodobnie dany student oceniłby wysoko lub kurs z którego prawdopodobnie otrzymałby wysoką ocenę.

Rekomendacje są ciekawym problemem angażującym analizę danych o wielu różnorodnych zastosowaniach.

Osobom zainteresowanym prostym wprowadzeniem do tego zagadnienia na przykładzie danych USOSa rekomenduję własny artykuł z ostatniej Delty: ,,Oceanarium, czyli o nurkowaniu w otchłani danych” (to element serii artykułów o USOSie).

Osobom zainteresowanym bardziej szczegółowymi informacjami polecam prace dyplomowe moich magistrantów:
* ,,Optymalizacja systemu rekomendacyjnego na podstawie bazy USOS”, Karola Kańskiego,
* ,,Sieci Bayesowskie i sieci (samo)wspierania, teoria i zastosowania do danych z systemu USOS”, Teresy Ponikowskiej,
* ,,USOS: System raportowania i analiz statystycznych”, Filipa Grotkowskiego.

A o rekomendacji kursów piszę nieprzypadkowo. Niedługo rozpocznie się rejestracja na kursy w semestrze zimowym. Studentów MIM UW i MiNI PW może zainteresować kurs ,,Techniki wizualizacji danych”, który zgłosiłem na obu tych wydziałach jako kurs obieralny.
Kurs ten będzie interesującym eksperymentem, ponieważ będzie można go realizować przez Internet (poprzez osobną podstronę naszej fundacji) lub na żywo na MIM UW lub MiNI PW.
Ostatni projekt zamienimy w wystawę wizualizacji danych wykonanych przez studentów UW, PW i przez osoby, które wybiorą tele-ścieżkę.
Sam ciekaw jestem co z tego wyjdzie.

Jak zaplanować płeć dziecka? część 2

W poprzednim wpisie pisaliśmy o tym jak zaplanować płeć dziecka. To był oczywiście prima-aprilisowy żart z wiary, że p-wartości przekładają się na przyczynowo-skutkowe zależności.

Dziś postaram się ten żart wyjaśnić. Oczywiście, jeżeli żart wymaga wyjaśnienia to pewnie nie był śmieszny. Ale osoby mające „niestandardowe poczucie humoru”  są przyzwyczajone do wyjaśniania swoich żartów.

Pisaliśmy o związku pomiędzy liczbą książek w domu a płcią dziecka. Zależność jest istotna statystycznie, a na potrzeby reszty tego wywodu załóżmy, że nieprzypadkowa. Pozostaje więc pytanie – jak ją wyjaśnić?

Czytaj dalej Jak zaplanować płeć dziecka? część 2

Jak zaplanować płeć dziecka? Co wyjdzie z fuzji Big Data, advanced analytics i PISA 2012?

Istnieje wiele naturalnych metod planowania płci dziecka (oparta o kalendarz, pole magnetyczne, dietę itp), jednak większość z nich ma zerową (a w najlepszym przypadku kilkuprocentową) skuteczność.

Okazuje się jednak, że istnieją metody znacznie skuteczniejsze, choć niespodziewane. Udało się je odkryć dzięki analizom Big Data danych z międzynarodowego badania PISA 2012. Poniżej przedstawiamy wyniki dla Polski, ale podobne otrzymuje się dla praktycznie każdego kraju. To nie może być przypadek!

Czytaj dalej Jak zaplanować płeć dziecka? Co wyjdzie z fuzji Big Data, advanced analytics i PISA 2012?