Myszy, testy post hoc i diffogramy


Pracowałem ostatnio z ciekawym problemem.

Mamy dwa rodzaje myszy. Z każdego rodzaju wybieramy trzy osobniki. Jesteśmy ciekawi jak pewien sposób traktowania komórek nerwowych wpływa na kolce dendrytyczne, czyli małe wypustki na neuronach. Z każdej myszy pobieramy ileś skrawków mózgu, każdy skrawek traktujemy na dwa badane sposoby. Każdemu skrawkowi robimy kilkadziesiąt zdjęć. Na każdym zdjęciu oznaczamy setki kolców dendrytycznych.

Mierzymy parametry kolców (np. długość), ale ich pomiary nie są niezależne. Musimy uwzględnić efekt zdjęcia, zagnieżdżony w efekcie skrawka, zagnieżdżony w efekcie myszy, zagnieżdżony w efekcie typu myszy. A interesuje nas porównanie pomiędzy sobą czterech warunków eksperymentalnych (skrzyżowane efekty typu myszy i sposobu traktowania).

Czym to modelować?

Czytaj dalej Myszy, testy post hoc i diffogramy

Maraton zespołowej analizy danych – odprawa

MiNImaraton-wydarzenie

Jutro startujemy z maratonem. Zaczynamy o 9, ale warto być wcześniej (jak ktoś się spóźni to trafi do przypadkowej grupy). Od 8:30 ktoś już będzie na miejscu (miejsce = MINI PW, Koszykowa 75).

Do dyspozycji mamy:
– sala odprawy, 328, duża sala wykładowa, tutaj się zbieramy, tutaj będzie jedzenie, napoje, początkowe spotkanie i końcowe prezentacje,
– cztery małe sale laboratoryjne na 3 piętrze i jedna duża na drugim, rozlokujemy projekty po tych pięciu salach.

Będzie ciepłe jedzenie i zimne przekąski, napoje i wifi.
Będzie można skorzystać z komputerów w laboratorium, ale najlepiej przynieść własny laptop (i jeżeli to możliwe przedłużacz).

Czytaj dalej Maraton zespołowej analizy danych – odprawa

Maraton zespołowej analizy danych – agenda

MiNImaraton-wydarzenie

Już za dziewięć dni wystartuje maraton zespołowej analizy danych.
Podsumujmy co wiemy o tym wydarzeniu.

Wydarzenie jest przygotowane dla studentów i absolwentów zainteresowanych analizą danych. Osób chcących popracować w zespole nad prawdziwym, ważnym i ciekawym projektem, chcących zobaczyć jak i z jakimi narzędziami pracują inni analitycy.
Udział w wydarzeniu jest bezpłatny.
Zgłaszać należy się indywidualnie, do zespołów dobierzemy się podczas wydarzenia.

Projekty zostały przygotowane przy merytorycznej współpracy z pracownikami Międzynarodowego Instytutu Biologii Molekularnej (International Institute of Molecular and Cell Biology), Instytutu Badań Edukacyjnych (Educational Research Insitute), Centrum Nauki Kopernik (Copernicus Science Centre).
Organizatorami są SmarterPoland i wydział MINI Politechniki Warszawskiej.
Sponsorem tego wydarzenia jest CodiLime (DeepSense).

Czytaj dalej Maraton zespołowej analizy danych – agenda

Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj odsłonimy trzeci z nich.

Centrum Nauki Kopernik (CNK) to centrum, którego celem jest promowanie i popularyzacja nauki. Podczas maratonu analizy danych postaramy się pomóc w realizacji tego celu. Jak?

Poznaj swojego klienta! Aby skuteczniej realizować swoje cele, CNK musi wiedzieć kto decyduje się na odwiedziny, kto nie decyduje się na odwiedziny, jakie są oczekiwania odwiedzających i w jaki sposób udało się wyjść im naprzeciw (nie tylko CNK, podobne pytania zadaje sobie bardzo wiele firm).

Zbiór danych do trzeciego problemu, to baza z badań ankietowych dotyczących profilu zwiedzającego Centrum Nauki Kopernik. W ankiecie zadano wiele szczegółowych pytań, między innymi, czy wizyta się udała, jakie były oczekiwania ankietowanego, czy ankietowany planuje wrócić, czy często czyta książki, ogląda filmy, chodzi na imprezy kulturalne, jakiej muzyki słucha, czy był sam, czy z dziećmi, czy z rodziną, gdzie mieszka, co robi i tym podobne.

Czytaj dalej Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Maraton zespołowej analizy danych – hackujemy maturę z matematyki

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj przedstawimy drugi z nich.

W skrócie – hackujemy maturę z matematyki.

Mając dane o wynikach z matury z matematyki (wyniki dla _każdego_ maturzysty z lat 2011, 2014, w sumie ponad 640 000 wyników), oraz płci, roczniku, szkole, gminie, województwie i _wielu_ innych cechach, postaramy się odpowiedzieć na kilka fundamentalnych pytań.

Czytaj dalej Maraton zespołowej analizy danych – hackujemy maturę z matematyki

Maraton zespołowej analizy danych – walczymy z rakiem

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj pokażemy pierwszy z nich.

Zaczniemy jak u Hitchcocka,
Jeden z najlepszych na świecie zespołów biologów molekularnych, badających odporność nowotworów na chemioterapie,
pracuje z gigantyczną bazą danych o nowotworach The Cancer Genome Atlas Project (ponad 14 tys pacjentów, publicznie dostępne dane ważące kilkanaście GB i znacznie znacznie większe dane chronione).

Mają masę pomysłów do weryfikacji, potrzebują wsparcia przy analizach.
Przyjdą na maraton i razem z Wami będą szukać odpowiedzi na pytanie dlaczego niektóre raki nie odpowiadają na leczenie.

Czytaj dalej Maraton zespołowej analizy danych – walczymy z rakiem

Wykresy HE (***)

(Kierując się sugestiami z maili, trudniejsze techniczne wpisy oznaczać będę gwiazdkami w tytule)

GPS w domowych zastosowaniach pozwala kierowcom ominąć korki, ale w bardziej przemysłowych zastosowaniach pozwala na zarządzanie flotą pojazdów lub sterowanie bojowym dronem. Podobnie jest i z wizualizacją. Słupki i kropki można wykorzystać by pokazać kilka średnich ale istnieją też dla nich bardziej zaawansowane zastosowania, takie jak np. prezentacja różnic w strukturach kowariancji. I dziś będzie o takich wizualizacjach, ale po kolei.

Problem z którym ostatnio miałem do czynienia jest następujący (dziedzina: antropologia). Mamy czaszki z różnych lokalizacji i od osobników obu płci. Każda czaszka jest opisana zbiorem pięciu liczb opisujących odległości pomiędzy określonymi punktami na czaszce. Co chcemy sprawdzić? Czy i jak parametry czaszek różnią się pomiędzy płciami i lokalizacjami.

Gdybyśmy parametry czaszek opisywali jedną liczbą zamiast pięcioma na tak postawiony problem można by podejść stosując klasyczną dwukierunkową analizę wariancji.
Mając pięć parametrów opisujących czaszki, gdybyśmy każdy z nich traktowali niezależnie moglibyśmy tak postawiony problem rozwiązać pięcioma niezależnymi analizami wariancji.
Ale parametry są zależne i w tym przypadku lepszym podejściem jest zastosowanie modeli umożliwiających jednoczesne modelowanie wielowymiarowych zmiennych.

Problem jednoczesnego modelowania wielowymiarowych cech pojawia się dosyć często, szczególnie gdy zmienne, które opisujemy są zależne. Przykładowo w łącznym modelowaniu ilości mleka, białka i tłuszczu w udoju lub w analizie czynników wpływających na poziom umiejętności (opisany przez zestaw zmiennych).

Gdzie w tym zagadnieniu są ciekawe wykresy? Zobaczmy. Zaczniemy od przypomnienia jak sprawa wygląda problem testowania dla jednowymiarowych zmiennych.

Model liniowy zazwyczaj przedstawia się w postaci

Screen Shot 2015-02-15 at 22.06.50

Czytaj dalej Wykresy HE (***)

SER @ CINEMA, Machine Learning + Deep Learning [19 lutego]

Najbliższy spotkanie SERowe z żywymi prelegentami odbędzie się w marcu. W między czasie, 19 lutego, planujemy eksperyment grupowego oglądania filmów o Machine Learningu.

Rozmawiałem ostatnio z Czarkiem D. o tym jak wiele ciekawych referatów nagrywa się podczas takich konferencji jak ICML, COLT czy NIPS.
Od słowa do słowa zrodził się pomysł, by spotkać się i wspólnie pooglądać kilka wybranych referatów.

Więc 19 lutego w sali 101 na wydziale MINI PW (Koszykowa 75) będziemy przez pół godziny oglądać wstęp do Deep Learning, później zamówimy pizzę, później obejrzymy bardziej zaawansowany referat związany z klasyfikacją wielowymiarowych danych.

Lista filmów:

* Neural networks [7.3] : Deep learning – unsupervised pre-training

* Neural networks [7.4] : Deep learning – example

* High-dimensional learning with deep network contractions
http://videolectures.net/sahd2014_mallat_dimensional_learning/

Czy oglądanie takich filmów wspólnie ma jakieś zalety?
Zobaczymy.
Zainteresowanych serdecznie zapraszamy do dołączenia się.
Techniki deep learning są często wykorzystywane w analizie zdjęć, nagrań dźwięku i video.
Warto o nich posłuchać.

Ponieważ planujemy zamówić ciepłe jedzenie, osoby zainteresowane POWINNY się zarejestrować poprzez poniższy formularz.
Jedzenie sponsoruje fundacja SmarterPoland, uczestnictwo jest bezpłatne.

Czytaj dalej SER @ CINEMA, Machine Learning + Deep Learning [19 lutego]

PISA – analiza z wykorzystaniem pakietu survey

Podczas warsztatów towarzyszących konferencji PAZUR Maciej Beręsewicz (Katedra Statystyki, Uniwersytet Ekonomiczny w Poznaniu) przedstawiał pakiet survey, świetne narzędzie do analizy danych sondażowych. Zgodził się dla nas przygotować krótki opis tego pakietu na przykładzie danych PISA 2009.

Tak więc dziś gościnny wpis, będzie R, będzie statystyka, będzie ciekawie.

[Pomysł na wstawki z użyciem gista zaczerpnąłem z innego polskiego bloga o R, pozdrawiamy].

PISA – analiza z wykorzystaniem pakietu survey

Maciej Beręsewicz

Wstęp

Poniższy wpis ma na celu przybliżenie wykorzystania pakietu survey do analizy danych pochodzących z badania PISA. W szczególności następujące cele mają zostać osiągnięte:

  • przybliżenie pakietu survey,
  • przybliżenie podejścia wykorzystanego w badaniu PISA do estymacji wariancji,
  • wykorzystanie pakietu survey w badaniu PISA.

Czytaj dalej PISA – analiza z wykorzystaniem pakietu survey