Myszy, testy post hoc i diffogramy


Pracowałem ostatnio z ciekawym problemem.

Mamy dwa rodzaje myszy. Z każdego rodzaju wybieramy trzy osobniki. Jesteśmy ciekawi jak pewien sposób traktowania komórek nerwowych wpływa na kolce dendrytyczne, czyli małe wypustki na neuronach. Z każdej myszy pobieramy ileś skrawków mózgu, każdy skrawek traktujemy na dwa badane sposoby. Każdemu skrawkowi robimy kilkadziesiąt zdjęć. Na każdym zdjęciu oznaczamy setki kolców dendrytycznych.

Mierzymy parametry kolców (np. długość), ale ich pomiary nie są niezależne. Musimy uwzględnić efekt zdjęcia, zagnieżdżony w efekcie skrawka, zagnieżdżony w efekcie myszy, zagnieżdżony w efekcie typu myszy. A interesuje nas porównanie pomiędzy sobą czterech warunków eksperymentalnych (skrzyżowane efekty typu myszy i sposobu traktowania).

Czym to modelować?

Czytaj dalej Myszy, testy post hoc i diffogramy

SER X + warsztaty + zdobądź koszulkę

Za dwa dni, w czwartek, o godzinie 18 rozpocznie się ostatni w tym roku akademickim SER X (strona meetup). Godzinę później rozpoczną się warsztaty z przetwarzania i prezentowania danych (będą one kontynuowane w sobotę). Miejsca na warsztatach dosyć szybko się pokończyły, pozostały już tylko na rlp (R package using the Literate Programming). Wydarzenie jest organizowane wspólnie ze studenckim Kołem Naukowym Data Science.

Czytaj dalej SER X + warsztaty + zdobądź koszulkę

R, Big Data i Efekt Pawła Kukiza

Na MiNI prowadzę w tym semestrze przedmiot ,,R i duże dane”. W ramach pierwszego projektu studenci w grupach opracowali systemy do monitorowania w mediach (portale informacyjne, facebook, twitter) tego ile i co się mówi o kandydatach na prezydenta. Sześć grup, sześć różnych podejść do tematu, większość grup zebrało po kilkaset MB najróżniejszych wypowiedzi / artykułów / komentarzy.

Co ciekawego z tego wynikło?

W takim gąszczu danych kryje się sporo historii. Przykładowo, gdy spojrzeć na skumulowaną liczbę artykułów, w których pada nazwisko któregoś z kandydatów w podziale na portale informacyjne (rysunek poniżej), to okazuje się, że do pierwszej tury najczęściej w artykułach pojawiali się B. Komorowski (szczególnie w Interii i Wirtualnej Polsce) i A. Duda (szczególnie w NaTemat, Onet i TVN24). Są takie portale (WPolityce) gdzie praktycznie nie pojawiali się inni kandydaci. Z porównanych portali, jedynie na Wirtualnej Polsce można było dosyć często poczytać o kimś innym, przy czym tym kimś innym był zazwyczaj P. Kukiz lub J. Korwin.

portale

Czytaj dalej R, Big Data i Efekt Pawła Kukiza

Drugi sezon Pogromców Danych

Screen Shot 2015-05-15 at 20.01.01

Drugi sezon Pogromców Danych jest dostępny od 6 maja na stronie pogromcydanych.icm.edu.pl. A od dzisiaj są dostępne zadania z challenge do drugiego sezonu. Przypomnijmy, drugi sezon dotyczy podstaw wizualizacji w R i podstaw modelowania. Podobnie jak w przypadku pierwszego sezonu, należy rozwiązać poprawnie przynajmniej 15 zadań z 20 by zostać Dyplomowanym Pogromcą Danych.

Wiele osób pyta się o dyplomy z części pierwszej. Ostatnia informacja od osoby zajmującej się dyplomami jest ,,niebawem będą rozsyłane”. Więc spodziewajcie się ich na skrzynce pocztowej. W razie wątpliwości ewentualne pytania można wysyłać na oficjalny adres pogromcydanych(at)icm.edu.pl.

Maraton zespołowej analizy danych – podsumowanie

W sobotę odbył się pierwszy maraton zespołowej analizy danych. Na miejscu zjawiło się prawie 60 uczestników (przeróżne stopnie zaawansowania w sztuce analizy danych, w większości absolwenci, głównie osoby z Warszawy ale też z Krakowa, Poznania, Białej Podlaskiej), którzy zmierzyli się z trzema problemami pod okiem 8 koordynatorów. Maraton trwał ponad 11 godzin więc do końca wytrwali tylko twardziele, ale było ich sporo (ponad połowa).

W przypadku każdego problemu udało się zrobić coś ciekawego (same prezentacje wyników zajęły dwie godziny a i tak były skracane). Największe wrażenie na mnie zrobiły wyniki zespołów pracujących na danych nowotworowych. Temat był bardzo trudny, wymagał dużego zrozumienia ze strony biologów molekularnych i ze strony analityków. Dane do analiz były duże, trudno było je wstępnie przetworzyć (pomimo że i tak sporo pracy wykonywał pakiet RTCGA), dużo czasu zajmowało samo czyszczenie danych, samo pobieranie danych zabijało wifi. W połowie maratonu wydawało się, że ledwie udało się przygotować dane do analizy a i cel analiz nie był super precyzyjny.

Czytaj dalej Maraton zespołowej analizy danych – podsumowanie

SER X + warsztaty przetwarzania i prezentowania danych

SER X, ostatnie w tym roku akademickim Spotkanie Entuzjastów R, odbędzie się już za 9 dni w czwartek 21 maja (budynek MiNI PW, Koszykowa 75 start godzina 18).

Tym razem mamy dla uczestników super gratkę. Wspólnie ze studenckim Kołem Naukowym Data Science łączymy SER razem z warsztatami przetwarzania i prezentowania danych.

Czytaj dalej SER X + warsztaty przetwarzania i prezentowania danych

Maraton zespołowej analizy danych – odprawa

MiNImaraton-wydarzenie

Jutro startujemy z maratonem. Zaczynamy o 9, ale warto być wcześniej (jak ktoś się spóźni to trafi do przypadkowej grupy). Od 8:30 ktoś już będzie na miejscu (miejsce = MINI PW, Koszykowa 75).

Do dyspozycji mamy:
– sala odprawy, 328, duża sala wykładowa, tutaj się zbieramy, tutaj będzie jedzenie, napoje, początkowe spotkanie i końcowe prezentacje,
– cztery małe sale laboratoryjne na 3 piętrze i jedna duża na drugim, rozlokujemy projekty po tych pięciu salach.

Będzie ciepłe jedzenie i zimne przekąski, napoje i wifi.
Będzie można skorzystać z komputerów w laboratorium, ale najlepiej przynieść własny laptop (i jeżeli to możliwe przedłużacz).

Czytaj dalej Maraton zespołowej analizy danych – odprawa

Pierwszy sezon Pogromców w liczbach [+ebook]

Zakończyła się pierwsza edycja pierwszego sezonu Pogromców Danych. Zainteresowanie było bardzo duże (pisałem o tym tutaj). Mam nadzieje, że ICM będzie uruchamiał kolejne edycje. Dla mnie cały kurs był niezwykle kształcącym eksperymentem (na wielu płaszczyznach). Dziś podzielę się kilkoma osobistymi, subiektywnymi obserwacjami.

Prace nad kursem rozpoczęły się ponad 9 miesięcy temu. Zupełnie nie było wiadomo jakiego odbiorcy się spodziewać i czy w ogóle będą jacyś zainteresowani. Tymczasem, pierwszy sezon Pogromców miał następujące statystyki:

Czytaj dalej Pierwszy sezon Pogromców w liczbach [+ebook]

Maraton zespołowej analizy danych – rejestracja

MiNImaraton-wydarzenie

W najbliższą sobotę wystartuje maraton zespołowej analizy danych.

Chcemy zderzyć dociekliwych i otwartych na nowe wyzwania analityków z trzema ciekawymi problemami, które przedstawialiśmy w poprzednich wpisach.

Udział w wydarzeniu jest bezpłatny. Na wydarzenie należy rejestrować się indywidualnie. W grupy zorganizujemy się już na miejscu.

Będzie darmowe jedzenie (;-)), przynajmniej kilku weteranów analizy danych, którzy już zapowiedzieli swoją obecność, eksperci dziedzinowi otwarci na nowe podejścia do analizy danych, oraz wielu wiele osób zainteresowanych analizą danych.

Osoby chcące wziąć udział w tym maratonie, proszone są o rejestrację z użyciem poniższego formularza.

Serdecznie zapraszamy

Czytaj dalej Maraton zespołowej analizy danych – rejestracja