RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

masterR

TL;DR: 24 listopada, w ramach Spotkań Entuzjastów R, odbędzie się spotkanie poświęcone R, bioinformatyce i statystyce medycznej. Więcej informacji tutaj.

LV:
Rozmawiałem ostatnio ze znajomym o ciekawych wyzwaniach związanych z analizą dużych danych. Zaczęło się od wyników w obszarze sieci konwolucyjnych i deep learningu ale zbaczaliśmy na różne tematy gdzie dane są niemałe a wyzwania być może i większe.
Gdy myśleć o klasyfikacji obrazów o rozmiarach 64×64 piksele (4096 piksle) to o ileż bardziej złożona jest predykcja losów pacjenta na bazie ekspresji dla 20 tysięcy genów czy informacji o stanie mutacji/metylacji dla milionów sond (miliony markerów dla każdego pacjenta! to już jest wysokowymiarowa przestrzeń).

Czytaj dalej RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

Nagrania z ICML 2016

Przeglądając zaległe wiadomości z wakacji trafiłem na link do nagrań referatów i warsztatów z konferencji International Conference on Machine Learning (ICML). Są one dostępne na stronie http://techtalks.tv/icml/2016/.

Dlaczego warto się im przyjrzeć? Susan Athey określiła ICML jako Hottest conference in the hottest area (oczywiście różne obszary są gorętsze dla różnych osób). Referatów jest wiele, póki co obejrzałem tylko sesje plenarne (te zazwyczaj są bardzo dobre lub wyśmienite).

Do gustu przypadły mi referaty o analizie dużych grafów Mining Large Graphs: Patterns, Anomalies, and Fraud Detection, analizie obrazu A Quest for Visual Intelligence in Computers i referat o analizie przyczynowo skutkowej Causal Inference for Policy Evaluation (trzy na pięć).

Wszystkich nagrań jest bardzo wiele, ale jeżeli znacie jakieś warte polecenia to śmiało sugerujcie w komentarzach.

SER 17 – laRge scale

masterR
Już w ten czwartek kolejne Spotkanie Entuzjastów R. Tym razem trzy prezentacje, każda o czymś innym, ale z jedną wspólną ceną – każda będzie bardzo ciekawa.

Filip Stachura z Appsilonu opowie o ,,RTVS: how Microsoft has copied RStudio? First-hand experience”. Lata minęły odkąd ostatni raz korzystałem z Visual Studio. Czy ta wtyczka do R spowoduje, że wrócę do tego narzędzia? Zobaczymy. A w ogóle to Visual Studio jest dostępne za darmo, nieźle.

Wit Jakuczun z WLOG Solutions przedstawi referat ,,R+H2O – idealny tandem do analityki predykcyjnej?”. Na poprzednim i jeszcze poprzednim useR biblioteki H2O były jednym z najgorętszych tematów wśród modelarzy. Co nam o nich opowie Wit?

Maciek Klimek i Robert Bogucki z CodiLime przedstawią referat ,,Which whale is it, anyway? Rozpoznawanie waleni biskajskich przy pomocy deep learningu”. Mam nadzieję, że te referat otworzy pudełko z kolejnymi referatami poświęconymi naprawdę zaawansowanym metodom we współczesnym Deep/Machine Learning.

Jeżeli chcecie przyjść (a jak widzicie warto) i chcecie by wystarczyło dla was pizzy to zarejestrujcie się tutaj http://meetup.com/Spotkania-Entuzjastow-R-Warsaw-R-Users-Group-Meetup/.

OMatKo!!!

logo

Takie inicjatywy lubimy.
OMatKo!!! to III Ogólnopolska Matematyczna Konferencja Studentów.
Poniżej zaproszenie od organizatorów.

Rok akademicki ma to do siebie, że w jego trakcie czas płynie w zastraszającym tempie.
Dlatego, wbrew pozorom, zbliżająca się wielkimi krokami kwietniowa konferencja OMatKo!!! (Ogólnopolska Matematyczna Konferencja Studentów) nie jest wcale tak odległym terminem. W natłoku obowiązków, zajęć i innych projektów warto już teraz zakreślić sobie w kalendarzu trzeci weekend kwietnia – to jest 15-17. 04.2016r.

Czytaj dalej OMatKo!!!

GeCONiI – jak budować pakiety, reprodukowalne raporty i aplikacje webowe w R


W poprzednim tygodniu miałem przyjemność prowadzić szkolenie dotyczące różnych ciekawych inżynierskich aspektów programowania w R. Szkolenie było prowadzone dla Akademii GeCONiI na Politechnice Śląskiej.
Dzięki uprzejmości organizatorów mogę podzielić się materiałami ze szkolenia.

Całość jest dostępna na stronie GitHub a poszczególne tematy można znaleźć pod poniższymi linkami

* Budowa pakietów z użyciem devtools
* Odtwarzalne obliczenia, czyli pakiet knitr i archivist
* Jak budować aplikacje webowe, czyli słów kilka o shiny
* Debugowanie i profilowanie kodu R
* Budowa serwisów opartych o pakiet opencpu

Jak kształcić Data Scientists / Badaczy Danych?

masterR
W drugiej połowie października miałem przyjemność uczestniczyć w trzech wydarzeniach, które z bardzo różnych perspektyw dotykały tytułowego pytania. Jedno z tych wydarzeń to biznesowa konferencja Think Big Congress BigData CEE. Badacze danych występowali głównie w roli poszukiwanego zasobu. Drugim, była konferencja Badania w edukacji organizowana przez IBE. Spotkanie osób zainteresowanych badaniami w edukacji, nauczaniem w tym również nauczaniem matematyki/informatyki. Dominowały tematy związane ze szkołą podstawową i średnią, ale w kuluarach można było też powymieniać się doświadczeniami z nauczania na uczeniach wyższych. Trzecim wydarzeniem był ostatni SER, na który przyszło wiele osób pracujących z danymi na co dzień. Przyszło powymieniać się nowinkami co tam w trawie piszczy.
Tak się też składa, że prowadząc zajęcia na MIM UW i MiNI PW mam jakiś wpływ na kształcenie czy to statystyków czy informatyków, zdarza mi się też uczestniczyć w dyskusjach dotyczących profilu kształcenia. Poniższy wpis to zbiór trzech wybranych wrażeń, przemyśleń i doświadczeń związanych z organizacją przestrzeni do kształcenia mitologicznych Badaczy Danych. Po jednym na jedną konferencję.

Czytaj dalej Jak kształcić Data Scientists / Badaczy Danych?

Dni nauki @ Avangarda

Kilka dni temu, podczas konwentu Avangarda, miały miejsce Dni Nauki. Początkowo nie wiedziałem czego się spodziewać po takim wydarzeniu, ale byłem, widziałem, słuchałem i gorąco polecam. Imprez popularyzujących naukę jest trochę i w Warszawie i innych miastach, ale często wpadają one w pop-naukę, jakieś wybuchające wulkany czy 60 sekundowe show w którym nie ma czasu zastanowić się co i dlaczego wybuchło.

Prezentacje na Dniach Nauki były w formacie 60/120 min. Większość, z tych które widziałem, to przegląd wyników naukowych na określony temat np. prezentacja Michała Bilewicza dotycząca zależnościom pomiędzy obserwowaną przemocą w internecie czy na filmach a zjawisku odwrażliwienia (przy okazji tej prezentacji widać było jak trudno komunikować wyniki statystyczne, ale prelegentowi się sprytnie udało). Były też prezentacje eksplorujące ciekawe wątki w literaturze, których ja nie zauważałem a miło było je nagle odnaleźć, np. Jakuba Lichańskiego Literatura i filozofia.

Impreza odbywa się co roku, wiec gorąco i w ciemno polecam przyszłoroczną.

Moja prezentacja ,,Jak na świat patrzą magicy danych, o drążeniu cyfrowego świata” znajduje się tutaj.

Machine Learning a Super Mario Bros

Od jakiegoś czasu pojawiają się algorytmy trenowane z wykorzystaniem technik machine learningu do nauki gry w gry komputerowe. Co ciekawe, chodzi o budowę algorytmu (i późniejszą wsteczną analizę, czego ten algorytm się nauczył), który będzie dobrze grał w daną grę bez konieczności specyfikacji jakichkolwiek reguł związanych z daną grą. Niech algorytm wszystkich potrzebnych reguł sam się nauczy!

Czytaj dalej Machine Learning a Super Mario Bros

useR2015 a uczenie statystyki i analizy danych

Program R przez lata rozwijał się jako narzędzie do nauki analizy danych. Świetnie się do tego nadaje i jest wykorzystywany na coraz większej liczbie uczelni i nie tylko. Im więcej miejsc, tym więcej pomysłów na to, jak przygotować środowisko w którym uczniowie mogą poznać tajniki analizy danych z użyciem R. Można pracować z gołym R i zbiorem skryptów, ale można też doświadczenie edukacyjne znacznie urozmaicić. Podczas konferencji useR 2015 wygłoszono kilka ciekawych referatów, pokazujących jak można wykorzystać R do nauki analizy danych. Poniżej przedstawię kilka tematów, które najbardziej przypadły mi do gustu.

Czytaj dalej useR2015 a uczenie statystyki i analizy danych

useR, grafy i rekomendacje filmów

Minął już ponad tydzień od (fantastycznie zorganizowanej) konferencji useR 2015. Dopiero teraz znalazłem trochę czasu by zebrać garść wrażeń. Przegląd wybranych wystąpień z krótkimi komentarzami znaleźć można w agregacie blogów rbloggers. Ograniczę się więc wrażenia do kilku tematów, ale napiszę o nich ciut więcej. Dziś będzie o tutorialu ,,Statistical Analysis of Network Data’’, który poprowadził Gábor Csárdi (Harvard). Link do materiałów: http://igraph.github.io/netuser15/user-2015.html.

Tutorial w znakomitej większości był poświęcony bibliotece igraph (http://igraph.org/) do której dostępne są łączniki z poziomu R i Pythona. Łącznik dla R to pakiet o nazwie igraph. Zgodnie z nazwą tutoriala nacisk położono na analizę danych sieciowych, ale nie zabrakło przykładów wizualizacji grafów. Zarówno statycznych, zaimplementowanych w igraph jak i dynamicznych zaimplementowanych w pakiecie networkD3 (skądinąd autorstwa Christopher Gandrud & JJ Allaire z RStudio). Obie biblioteki są przedstawione w świetnym wprowadzenie do wizualizacji sieci http://kateto.net/network-visualization autorstwa Katherine Ognyanova.

Czytaj dalej useR, grafy i rekomendacje filmów