ggmail + forecast = how many emails I will get tomorrow?


During the eRum 2016, Adam Zagdański gave a very good tutorial about time series modeling. Among other things I’ve learned that the forecast package (created by Rob Hyndman) got cool new plots based on the ggplot2 package.

Let’s use it to play with mailbox statistics for my gmail account!

1. Get the data

Follow this link to download the data from your gmail account as a single mbox file.
It may be large (15GB in my case), but for further steps it’s enough to keep only headers. grep + cat will do the job.

Czytaj dalej ggmail + forecast = how many emails I will get tomorrow?

RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

masterR

TL;DR: 24 listopada, w ramach Spotkań Entuzjastów R, odbędzie się spotkanie poświęcone R, bioinformatyce i statystyce medycznej. Więcej informacji tutaj.

LV:
Rozmawiałem ostatnio ze znajomym o ciekawych wyzwaniach związanych z analizą dużych danych. Zaczęło się od wyników w obszarze sieci konwolucyjnych i deep learningu ale zbaczaliśmy na różne tematy gdzie dane są niemałe a wyzwania być może i większe.
Gdy myśleć o klasyfikacji obrazów o rozmiarach 64×64 piksele (4096 piksle) to o ileż bardziej złożona jest predykcja losów pacjenta na bazie ekspresji dla 20 tysięcy genów czy informacji o stanie mutacji/metylacji dla milionów sond (miliony markerów dla każdego pacjenta! to już jest wysokowymiarowa przestrzeń).

Czytaj dalej RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

Jak szybko urosnę? Czyli co ma wspólnego Singapur i BetaBit


Ze strony projektu BetaBit można pobrać plik pdf z opowiadaniem ,,Jak szybko urosnę?”. Pierwszym opowiadaniem ze zbioru ,,Jak długo żyją Muffinki?”. Niedługo pojawią się wersje elektroniczne kolejnych opowiadań.
Przez stronę projektu można też zakupić papierową wersję opowiadań lub komiksów.


Tematem przewodnim pierwszego opowiadania jest pytanie: kiedy będę wystarczająco wysoki/wysoka aby móc przejechać się kolejką górską? Szybkie kolejki mają ograniczenie na minimalny wzrost i czasem nawet stanie na palcach nie pomaga. A ten temat to świetna wymówka by porozmawiać o rozkładach wzrostu różnych dzieci w tym samym wieku.

Ale co wspólnego ma to opowiadanie z Singapurem?

Jakiś czas temu znajoma z Centrum Nauki Kopernik przywiozła mi z singapurskiego Art Science Museum książeczkę do pracy z dziećmi pod tytułem ,,Big Band Data”.
A co jest w środku? Ćwiczenia praktyczne na pracę z danymi, wizualizację, planowanie procesu analizy danych od ich zebrania po modelowanie.

O tak! Umiejętność korzystania z danych jest w rozwiniętych gospodarkach równie potrzebna jak umiejętność pisania i czytania. Trzeba więc pokazywać od młodych lat co i jak można z danymi zrobić.

Czasem spotykam się z głosami marud, że to pieśń przyszłości i trzeba poczekać jeszcze z 50 lat. Ale właśnie przykład z Singapuru pokazuje, że nie ma na co czekać.
Dzieci są ciekawe świata a ten można im pokazać przez pryzmat liczb.
Ale jeżeli można w Singapurze to można też w Polsce!

Więcej o projekcie BetaBit i dostępnych w nim materiałach można przeczytać na stronie http://betabit.wiki/.

RLadies Workshops – już jutro – 20 X 2016

Krótkie przypomnienie w sprawie jutrzejszych Spotkań Entuzjastów R – RLadies.

Już jutro o godzinie 18 spotykamy się w sali 102 w budynku wydziału MiNI Politechniki Warszawskiej (Koszykowa 75, Warszawa).
Po krótkiej odprawie rozejdziemy się do sal warsztatowych. Będziemy pracować w małych przyjaznych grupach, max kilkanaście osób.

Czytaj dalej RLadies Workshops – już jutro – 20 X 2016

Z dziennika nauczyciela akademickiego – Techniki Wizualizacji Danych

Prowadzę w tym semestrze Techniki Wizualizacji Danych na MiNI PW. Omawiamy najróżniejsze narzędzia do tworzenia grafiki statycznej i interaktywnej. Począwszy od ggplot2 przez google vis, D3 po Adobe Illustrator.
Ale w wizualizacji danych to nie narzędzie jest najważniejsze, ale komunikatywność historii, którą się graficznie przedstawia.

Jak ją ćwiczyć?

Akurat tutaj duże nadzieje pokładam w pracach domowych. W ramach ćwiczeń, co tydzień, studenci wyszukują w gazetach czy portalach informacyjnych dane lub wykresy, a następnie przygotowują wizualizacje danych z użyciem narzędzi, które akurat w danym tygodniu omawiamy.

Poniżej pokażę dwie bardzo ciekawe prace domowe z pierwszego tygodnia zajęć (ggplot2).

Pani Ewa Baranowska znalazła w Rzeczpospolitej poniższą tabelę dotyczącą liczby spraw prowadzonych przez prokuratorów w różnych krajach.

I z odrobiną magii w ggplot2 powstał poniższy wykres. Nieporównywalnie czytelniejszy niż ww. tabela. Wyraźnie widać różnice pomiędzy wschodem a zachodem Europy.

Drugą pracę, która przypadła mi do gustu, wykonał pan Maksymilian Mazur. Dane dotyczące walki pomiędzy Danem Hendersonem a Michaelem Bispingiem (tutaj link) przedstawił je za pomocą poniższego wykresu.

Wyraźnie widać różnice pomiędzy 2 i 5 rundą. Nie było jej widać w oryginalnej grafice.

eRum i SER

Pierwsza Europejska konferencja użytkowników R (2016) już za nami.

Konferencja była fantastycznie zorganizowana (kudos to Maciej Beręsewicz i cały komitet organizacyjny). Było bardzo dużo ciekawych prezentacji i bardzo bardzo dużo ciekawych ludzi. Bardzo różnorodne środowisko, zarówno biznes jak i akademia, weterani (przyjechał nawet Rob Hyndman z Australii) jak i studenci.
Atmosfera jak z najlepszych edycji useR’ów.

Prezentacje są dostępne na GitHubie. Jest ich naprawdę dużo (i pewnie będą spływać kolejne).
Aby zorientować się od czego zacząć, można zapoznać się z książką abstraktów.

Trochę zdjęć i wrażeń z konferencji można odczytać z twittera.

Z wydarzeń europejskich wracamy do Warszawy.
W przyszłym tygodniu w Warszawie mamy kolejną edycję SERów.
Tym razem w ramach RLadies warsztaty z R.
W sumie 7 grup, cztery wprowadzające do R i trzy poświęcone wizualizacji.
Warsztaty wprowadzające poprowadzą: Agnieszka Tomczyk, Marcin Kosiński, Olga Mierzwa-Sulima, Natalia Potocka.
Warsztaty z ggplot2 poprowadzą: Katarzyna Sobiczewska, Marta Sommer, Przemysław Biecek.

W mojej grupie warsztatowej planuję wykorzystać dane o popularności odcinków seriali telewizyjnych zebranych z portalu IMDB. Ale jeżeli macie pomysł na inne ciekawe dane to dajcie znać.

A już za miesiąc w ramach SERów planujemy spotkanie tematyczne ’Bio+R’. Szczególnie zapraszamy osoby zainteresowane biostatystyką i bioinformatyką. Będą przedstawiciele różnych firm, będą ludzie z uczelni, będzie można dowiedzieć się co ciekawego i gdzie można robić z danymi genetycznymi.

Etyka statystyka

Zakończyłem właśnie lekturę książki Bad Pharma (przetłumaczona na j. polski jako ,,Złe leki’’, autor: Ben Goldacre), która na wielu przykładach pokazuje wady systemu wokół badań klinicznych i ,,evidence based medicine’’. Ben popełnił wcześniej inną książkę wartą przeczytania – Bad Science, prowadzi bloga (tutaj), można też obejrzeć jego 15 minutowe wystąpienie na TED Global (niezłe ma tempo mówienia).

Lektura zostawiła mnie z taką refleksją. Czy na kierunkach kształcących statystyków w Polsce mówi się o etycznych aspektach pracy statystyka? Jeżeli znacie taki kierunek to dajcie znać.

O etyce w analizie danych czasem pisze Andrew Gelman (prowadzi blog http://andrewgelman.com/). Tutaj jest jego ciekawa prezentacja dot. etyki a tutaj artykuł.

Sprawa etyki dla praktykujących statystyków jest oczywiście dyskutowana szerzej. W kwietniu tego roku ASA (American Statistical Association) opublikowała zbiór zaleceń (dostępne tutaj i tutaj).

Niektóre punkty to odpowiednia staranność, transparentność danych i wykonanych analiz. Ale też przewidywanie efektów, które mogą mieć publikowane treści i branie za nie odpowiedzialności.

Z polskojęzycznych materiałów trafiłem na zalecenia GUSu (Podstawowe standardy jakości statystyki publicznej, siłą rzeczy skupione bardziej na statystyce publicznej). Google podrzucił mi też publikację Bohdana Wyżnikiewicza Statystyka a etyka Statistics and Ethics – CEJSH, na ostatniwj stronie jest kilka ciekawych przykładów (Skutki nieetycznych i quasi-nieetycznych działań na danych statystycznych).

Program of the european R users meeting [only 7 days to go]

The european R users meeting [eRum] is going to start in just 7 days.

We expect over 250 participants, 10 invited talks, 47 regular talks, 13 lightning talks and 12 posters. In order to handle that much content we scheduled 18 sessions [+ workshops].

Find the program of the conference here or here. In the second sheet you will find a detailed list of talks and sessions.

As you see the conference is full of very interesting stuff. So, get prepared and see you in Poznań!