Już niedługo matura…

Już niedługo matury, warto więc przypomnieć aplikację pozwalającą na sprawdzenie jak rozwiązywane były w wybranej szkole zadania na maturze 2015.

Czasem takie zestawienia kryją ciekawe historie.

Po prawej stronie przedstawione są wyniki dla warszawskiego liceum im. Staszica, które specjalizuje się w matematyce i naukach ścisłych. Jeżeli przyjrzymy się jaki procent maturzystów rozwiązało poprawnie zadania, to okaże się, że dla prawie wszystkich zadań mamy skuteczność ponad 90%.
Czyli zdecydowanie wyższą niż średnia w kraju.

Ale (zawsze jest ale ;-)) jest jedno zadanie, gdzie pomyłek było kilkukrotnie/kilkunastokrotnie więcej niż przy pozostałych i jest to trickowe zadanie 8 za jeden punkt (nawiasem mówiąc – wykres funkcji). Gdybym był nauczycielem w Staszicu to porozmawiałbym z maturzystami o tym wykresie.
Choć nie ma co robić z tego powodu tragedii, to zadanie wypadło słabo we wszystkich ,,dobrych liceach” w różnych miastach.

Aplikacja dostępna jest pod adresem http://mi2.mini.pw.edu.pl:8080/SmarterPoland/matura2015/.
Do zbudowania tej aplikacji wykorzystano dane udostępnione przez pakiet ZPD wykonany przez Instytut Badań Edukacyjnych.

Call for Papers: eRum 2016 (European R users meeting)

6_edited

The European R users meeting (eRum) is an international conference that aims at integrating users of the R language. eRum 2016 will be held on October 13 and 14, 2016, in Poznan, Poland at the Poznan University of Economics and Business. We already confirm the following invited speakers: Rasmus Bååth, Romain Francois, Ulrike Grömping, Matthias Templ, Heather Turner, Przemysław Biecek, Marek Gągolewski, Jakub Glinka, Katarzyna Kopczewska and Katarzyna Stąpor.

We would like to bring together participants from around the world. It will be a good chance to exchange experiences, broaden knowledge of R and collaborate. The conference will cover topics including:

• Bayesian Statistics,
• Bioinformatics,
• Economics, Finance and Insurance,
• High Performance Computing,
• Reproducible Research,
• Industrial Applications,
• Statistical Learning with Big Data,
• Spatial Statistics,
• Teaching,
• Visualization & Graphics,
• and many more.

We invite you to participate in eRum 2016:
(1) with a regular oral presentation,
(2) with a lightning talk,
(3) with a poster presentation,
(4) or without a presentation or poster.

Due to limited space at the conference venue, the organizers have set a limit for the number of participants at 250 and persons with regular/lighting talks/posters will be considered first and those attending without a presentation or poster will be handled on a first-come, first-served basis.

Please make your submission online at http://erum.ue.poznan.pl/#register. The submission deadline is June 15, 2016. Submitters will be notified via email by July 1, 2016 of acceptance. Additional details will be announced via the eRum conference website.

Kwity z Panamy, neo4j oraz cypher – czyli Data Science w akcji


Panama Papers to największy wyciek danych w historii. Ponad 11 milionów dokumentów składa się na 2.6TB. Jak ogarnąć taką ilość danych? Przecież żaden człowiek tego nie przejrzy dokument po dokumencie. Śledztwo prowadzone przez Międzynarodowego Konsorcjum Dziennikarzy Śledczych (ICIJ – The International Consortium of Investigative Journalists) bazowało na algorytmach analizy dużych zbiorów danych.

Na stronie https://panamapapers.icij.org/graphs/ jest kilka wizualizacji kluczowych zestawień z zebranych dokumentów. W jaki sposób analizowano dane o rozmaitych zależnościach pomiędzy rozmaitymi podmiotami na taką skalę?

Do analizy wykorzystano między innymi bazę danych neo4j dedykowaną analizie danych grafowych. Jak pracuje się z takimi bazami danych? Np. korzystając z języka cypher – deklaratywny jezyk inspirowany SQLem, ale zaprojektowany do pracy na grafach.

Na stronie http://neo4j.com/blog/analyzing-panama-papers-neo4j/ znajduje się ciekawa prezentacja jak budowano w tym języku zapytania do analizy danych z Kwitów z Panamy. Świetna lektura i wiele interesujących linków.

SER 17 – laRge scale

masterR
Już w ten czwartek kolejne Spotkanie Entuzjastów R. Tym razem trzy prezentacje, każda o czymś innym, ale z jedną wspólną ceną – każda będzie bardzo ciekawa.

Filip Stachura z Appsilonu opowie o ,,RTVS: how Microsoft has copied RStudio? First-hand experience”. Lata minęły odkąd ostatni raz korzystałem z Visual Studio. Czy ta wtyczka do R spowoduje, że wrócę do tego narzędzia? Zobaczymy. A w ogóle to Visual Studio jest dostępne za darmo, nieźle.

Wit Jakuczun z WLOG Solutions przedstawi referat ,,R+H2O – idealny tandem do analityki predykcyjnej?”. Na poprzednim i jeszcze poprzednim useR biblioteki H2O były jednym z najgorętszych tematów wśród modelarzy. Co nam o nich opowie Wit?

Maciek Klimek i Robert Bogucki z CodiLime przedstawią referat ,,Which whale is it, anyway? Rozpoznawanie waleni biskajskich przy pomocy deep learningu”. Mam nadzieję, że te referat otworzy pudełko z kolejnymi referatami poświęconymi naprawdę zaawansowanym metodom we współczesnym Deep/Machine Learning.

Jeżeli chcecie przyjść (a jak widzicie warto) i chcecie by wystarczyło dla was pizzy to zarejestrujcie się tutaj http://meetup.com/Spotkania-Entuzjastow-R-Warsaw-R-Users-Group-Meetup/.

Konferencja „Big Data – bigger opportunities”, 28-29 kwietnia SGH

12953292_592531930905955_298183681_o

Nasza fundacja została patronem honorowym konferencji ,,Big Data – bigger opportunities” organizowanej przez Studenckie Koło Naukowe Statystyki w SGH i zaplanowanej na 28-29 kwietnia 2016 w Warszawie.

Serdecznie zapraszamy. Poniżej więcej informacji od organizatorów (i zdjęcie organizatorów).

Czytaj dalej Konferencja „Big Data – bigger opportunities”, 28-29 kwietnia SGH

Geostatystyka w R

Screen Shot 2016-04-08 at 22.08.41

R Studio uruchomiło serwis https://bookdown.org/ z otwartymi książkami tworzonymi w R/knitr/pandoc.

Jest już na nim pierwsza polska pozycja!

Jest to ,,Geostatystyka w R”, Jakub Nowosad, 2016, czyli skrypt do zajęć z geostatystyki z UAM.

Na wydziałach matematycznych nie zawsze są zajęcia z geostatystyki, więc warto sobie ten skrypt przejrzeć.

Na GitHubie grupy MI2 założyłem plik z listą polskojęzycznych bezpłatnych materiałów poświęconych R. Jeżeli znacie inne to po prostu je dodajcie przez GitHub. (na wikipedii jest lista książek, ale czasem krótsze opracowania na określony temat mogą być bardzo kształcące).

Wizualizacja danych to nie trzaskanie wykresów

W ,,Esejach o sztuce prezentowania danych” jest rozdział Droga poświęcony procesowi dłubania przy historiach, które chcemy pokazać. Wniosek jest taki, że wykres jest częścią procesu poznawania zależności w danych. Jeżeli nie ma tego procesu i pokazujemy maszynowo liczby bez wnikania co one znaczą, otrzymujemy nie z wizualizację danych ale jakiś obrazek.

Temat procesu tworzenia wizualizacji trafił dzisiaj na FlowingData, wraz z linkiem do bardzo ciekawego bloga Jake’a Porwaya. Ten jeden konkretny wpis można streścić do zdania: ,,data visualization without rigorous analysis is at best just rhetoric and, at worst, incredibly harmful” (wizualizacja danych, bez drobiazgowej analizy, jest w najlepszym przypadkiem zwykłą retoryką, w najgorszym przypadku staje się niebezpieczna).

Osoby, które interesują się wizualizacją danych, koniecznie powinny ten blog przeczytać.
Pozostałych może zachęci poniższy wykres.

Screen Shot 2016-04-07 at 13.50.05

Histogram pokazujący częstość aresztowań związanych z prostytucją pokazuje ,,wyraźny sygnał” w postaci skoku aresztowań w środy. Do takiego wykresu można oczywiście dorobić niejedną teorię tłumaczącą dlaczego tak jest. Ale teorie, bez głębszej analizy, są po prostu szkodliwe. I w bardzo barwny sposób Jake Porway opisuje to na swoim blogu.

Gadżety do RStudio

Najnowsza wersja RStudio pozwala na instalację dodatkowych funkcjonalności. Co więcej takie dodatki można w prosty sposób samodzielnie tworzyć. Więcej o tym jak je instalować i budować można przeczytać na stronie https://rstudio.github.io/rstudioaddins/.

Wiele ciekawych dodatków już powstało, powstają też nowe. Moje serce skradł dodatek ggThemeAssist.

Wystarczy wskazać obiekt z wykresem zbudowanym z ggplot2, a następnie otworzyć miniedytor aby w prosty sposób dostosować detale graficzne. Wszystko co można zmienić funkcją themes.
Kod zmodyfikowanego wykresu jest wklejany bezpośrednio do edytora RStudio.
Genialne!

Poniżej screenshot edytora.

Screen Shot 2016-03-31 at 23.51.37

78% statystyk jest zmyślonych

Czy zastanawialiście się ile ze statystyk o których się słyszy/o których się czyta, jest wyssanych z palca?

Zapytałem googla ,,how much statistics are made up”. Skrupulatnie zebrałem wyniki z pierwszych 13 stron, między innymi businessinsider, uncyclopedia czy answers.

Wyniki oczywiście wczytałem do programu statystycznego R w wersji 3.2.4 i wykonałem wykres w ggplot2, wersja 2.1.

Interesujące! Ponad połowa odwiedzonych serwisów zawiera informacje, że więcej niż 78% statystyk jest zmyślonych.

Aby upewnić się, że nie jest to przypadek zrobiłem test Kołomogorowa Smirnowa badający zgodność z rozkładem jednostajnym i wyszło…..

p-wartość 0.012!!!

Czyli istotnie statystycznie!
(i nie pytajcie co, przecież jest istotne statystycznie!)

Gdyby ktoś chciał odtworzyć te wyniki, to zebrane dane: c(0.74, 0.85, 0.24, 0.43, 0.98, 1, 0.4, 0.8, 0.97, 0.73, 0.95, 0.79, 0.43, 0.64, 0.83).