Pogromcy Danych – sezon 2: ebook + rozwiązania challenge

Zakończył się drugi sezon Pogromców Danych! Sezon poświęcony podstawom wizualizacji danych (a dokładniej pakietowi ggplot) i podstawowym technikom modelowania statystycznego.

Ebook z materiałami z drugiego sezonu jest dostępny pod linkami: [format epub], [format mobi]. W środku wprowadzenie do pakietu ggplot2 (w tym, jak przedstawiać informacje liczbowe na mapach), przykłady regresji liniowej, testu chi-kwadrat, tabeli kontyngencji itp. Oba linki są również umieszczone na stronie kursu w odcinku Dodatki (podobnie jak dla pierwszego sezonu).

Podczas kursu wielu uczestników pytało o przykładowe rozwiązania dla zadań z sekcji Challenge. Poniżej przedstawione są testowe rozwiązania dla obu kursów, testy pozytywne ,,sprawdzaczki”. Sprawdzaczka miała zresztą dużo pracy, do dziś zgłoszono ponad 17 tysięcy rozwiązań!!!

Czytaj dalej Pogromcy Danych – sezon 2: ebook + rozwiązania challenge

[MI^2] Prognozowanie możliwości sportowców w lekkoatletycznych dyscyplinach biegowych – Witold Chodor

Screen Shot 2015-05-16 at 00.19.57

Składamy grupę MI^2, studentów i absolwentów MIM UW i MiNI PW zainteresowanych analizą ciekawych i różnorodnych danych. Dzisiaj o jednym z takich ciekawych projektów (btw: rekrutujemy na wakacyjne staże i praktyki związane ze statystyczną analizą danych bio-medycznych).

Z igrzysk na igrzyska olimpijskie sportowcy biegają coraz szybciej, biją nowe rekordy. Zarówno w biegu na 100m jak i na 42km. Ale czy istnieje kres możliwości sportowców lekkoatletycznych? Hmmm, a gdyby sprawność ,,na igrzyska” można opisać modelem regresyjnym, a następnie śledzić jak współczynniki tego modelu zmieniają się z igrzysk na igrzyska…

Temu zagadnieniu poświęcona była praca licencjacka Witolda Chodora. Cała praca jest dostępna tutaj. Poniżej prezentujemy jej streszczenie w postaci html, wersję pdf można pobrać z tej strony.

Czytaj dalej [MI^2] Prognozowanie możliwości sportowców w lekkoatletycznych dyscyplinach biegowych – Witold Chodor

Międzynarodowy Konkurs Umiejętności Statystycznych

W tym roku miałem przyjemność zasiadać w komitecie naukowym polskiej edycji Międzynarodowego Konkursu Umiejętności Statystycznych.

Celem konkursu jest rozwijanie umiejętności uczniów w opisywaniu ich środowiska za pomocą statystyk oraz używanie statystyk jako narzędzia do uczenia się o ich codziennym życiu. Konkurs organizowany jest w kategorii gimnazjum i szkoły ponadgimnazjalne. Więcej o konkursie przeczytać można na tej stronie.

Za zgodą organizatorów umieszczam link do zwycięskich prac (uwaga 15MB), a poniżej przedstawiam laureatów w obu kategoriach, oraz nagrodzone prace. Niesamowite, że zostały one wykonane przez gimnazjalistów i licealistów. Warsztat i słownictwo jeszcze będzie dojrzewało, ale dociekliwość, przygotowanie zbieranych danych i sposób wnioskowania robi wrażenie.

Czytaj dalej Międzynarodowy Konkurs Umiejętności Statystycznych

Myszy, testy post hoc i diffogramy


Pracowałem ostatnio z ciekawym problemem.

Mamy dwa rodzaje myszy. Z każdego rodzaju wybieramy trzy osobniki. Jesteśmy ciekawi jak pewien sposób traktowania komórek nerwowych wpływa na kolce dendrytyczne, czyli małe wypustki na neuronach. Z każdej myszy pobieramy ileś skrawków mózgu, każdy skrawek traktujemy na dwa badane sposoby. Każdemu skrawkowi robimy kilkadziesiąt zdjęć. Na każdym zdjęciu oznaczamy setki kolców dendrytycznych.

Mierzymy parametry kolców (np. długość), ale ich pomiary nie są niezależne. Musimy uwzględnić efekt zdjęcia, zagnieżdżony w efekcie skrawka, zagnieżdżony w efekcie myszy, zagnieżdżony w efekcie typu myszy. A interesuje nas porównanie pomiędzy sobą czterech warunków eksperymentalnych (skrzyżowane efekty typu myszy i sposobu traktowania).

Czym to modelować?

Czytaj dalej Myszy, testy post hoc i diffogramy

SER X + warsztaty + zdobądź koszulkę

Za dwa dni, w czwartek, o godzinie 18 rozpocznie się ostatni w tym roku akademickim SER X (strona meetup). Godzinę później rozpoczną się warsztaty z przetwarzania i prezentowania danych (będą one kontynuowane w sobotę). Miejsca na warsztatach dosyć szybko się pokończyły, pozostały już tylko na rlp (R package using the Literate Programming). Wydarzenie jest organizowane wspólnie ze studenckim Kołem Naukowym Data Science.

Czytaj dalej SER X + warsztaty + zdobądź koszulkę

R, Big Data i Efekt Pawła Kukiza

Na MiNI prowadzę w tym semestrze przedmiot ,,R i duże dane”. W ramach pierwszego projektu studenci w grupach opracowali systemy do monitorowania w mediach (portale informacyjne, facebook, twitter) tego ile i co się mówi o kandydatach na prezydenta. Sześć grup, sześć różnych podejść do tematu, większość grup zebrało po kilkaset MB najróżniejszych wypowiedzi / artykułów / komentarzy.

Co ciekawego z tego wynikło?

W takim gąszczu danych kryje się sporo historii. Przykładowo, gdy spojrzeć na skumulowaną liczbę artykułów, w których pada nazwisko któregoś z kandydatów w podziale na portale informacyjne (rysunek poniżej), to okazuje się, że do pierwszej tury najczęściej w artykułach pojawiali się B. Komorowski (szczególnie w Interii i Wirtualnej Polsce) i A. Duda (szczególnie w NaTemat, Onet i TVN24). Są takie portale (WPolityce) gdzie praktycznie nie pojawiali się inni kandydaci. Z porównanych portali, jedynie na Wirtualnej Polsce można było dosyć często poczytać o kimś innym, przy czym tym kimś innym był zazwyczaj P. Kukiz lub J. Korwin.

portale

Czytaj dalej R, Big Data i Efekt Pawła Kukiza

Drugi sezon Pogromców Danych

Screen Shot 2015-05-15 at 20.01.01

Drugi sezon Pogromców Danych jest dostępny od 6 maja na stronie pogromcydanych.icm.edu.pl. A od dzisiaj są dostępne zadania z challenge do drugiego sezonu. Przypomnijmy, drugi sezon dotyczy podstaw wizualizacji w R i podstaw modelowania. Podobnie jak w przypadku pierwszego sezonu, należy rozwiązać poprawnie przynajmniej 15 zadań z 20 by zostać Dyplomowanym Pogromcą Danych.

Wiele osób pyta się o dyplomy z części pierwszej. Ostatnia informacja od osoby zajmującej się dyplomami jest ,,niebawem będą rozsyłane”. Więc spodziewajcie się ich na skrzynce pocztowej. W razie wątpliwości ewentualne pytania można wysyłać na oficjalny adres pogromcydanych(at)icm.edu.pl.

Maraton zespołowej analizy danych – podsumowanie

W sobotę odbył się pierwszy maraton zespołowej analizy danych. Na miejscu zjawiło się prawie 60 uczestników (przeróżne stopnie zaawansowania w sztuce analizy danych, w większości absolwenci, głównie osoby z Warszawy ale też z Krakowa, Poznania, Białej Podlaskiej), którzy zmierzyli się z trzema problemami pod okiem 8 koordynatorów. Maraton trwał ponad 11 godzin więc do końca wytrwali tylko twardziele, ale było ich sporo (ponad połowa).

W przypadku każdego problemu udało się zrobić coś ciekawego (same prezentacje wyników zajęły dwie godziny a i tak były skracane). Największe wrażenie na mnie zrobiły wyniki zespołów pracujących na danych nowotworowych. Temat był bardzo trudny, wymagał dużego zrozumienia ze strony biologów molekularnych i ze strony analityków. Dane do analiz były duże, trudno było je wstępnie przetworzyć (pomimo że i tak sporo pracy wykonywał pakiet RTCGA), dużo czasu zajmowało samo czyszczenie danych, samo pobieranie danych zabijało wifi. W połowie maratonu wydawało się, że ledwie udało się przygotować dane do analizy a i cel analiz nie był super precyzyjny.

Czytaj dalej Maraton zespołowej analizy danych – podsumowanie

SER X + warsztaty przetwarzania i prezentowania danych

SER X, ostatnie w tym roku akademickim Spotkanie Entuzjastów R, odbędzie się już za 9 dni w czwartek 21 maja (budynek MiNI PW, Koszykowa 75 start godzina 18).

Tym razem mamy dla uczestników super gratkę. Wspólnie ze studenckim Kołem Naukowym Data Science łączymy SER razem z warsztatami przetwarzania i prezentowania danych.

Czytaj dalej SER X + warsztaty przetwarzania i prezentowania danych