Korelacje

Liczenie i testowanie korelacji pomiędzy parą zmiennych to jedno z najczęściej wykonywanych czynności w celu zbadania związku pomiędzy parą zmiennych. Bardzo często korzysta się przy tym ze współczynnika korelacji Pearsona, czyli narzędzia, które ma już prawie 120 lat!!!

Gdy zmienne mają ,,niepokojące” rozkłady, np są silnie skośne czy posiadają grube ogony to korelacja Persona źle się zachowuje, jest np. wrażliwa na pojedyncze odstające obserwacje. W takich sytuacjach często stosuje się korelacje Spearmana (która ma 110 lat).

Ale sposobów liczenia i testowania korelacji jest znacznie więcej. Dziś o kilku z nich napisze Krzysztof Trajkowski.

Kody użyte do wyznaczania poniższych wyników umieszczone są na naszym GitHubie pod tym adresem.

——————————

Testy korelacji

Krzysztof Trajkowski

=

GNUplot

Krzysztof Trajkowski przygotował ciekawe wprowadzenie do LaTeXowego pakietu gnuplottex, który pozwala na korzystanie z komend GNUplota (narzędzia do rysowania wykresów matematycznych i prezentacji danych) w kodzie LaTeX (do pozwala na łatwe zarządzanie wielkością i krojami czcionek na wykresach).

Plik 'Wykresy z GNUplotem’ w formacie pdf można pobrać z tego adresu.

Kody źródłowe LaTeXa dla tego wprowadzenia oraz kody źródłowe skryptów GNUplotowych można pobrać z naszego GitHuba tutaj.

A poniżej wklejam pierwsze kilka stron tego dokumentu.

——————

GNUplot

Krzysztof Trajkowski

Czytaj dalej GNUplot

PISA 2012, occupations and the shiny app

OECD has just released a new PISA in Focus titled „Do parents’ occupations have an impact on student performance?”.

A shiny app is an add-on to this article, you can open it from this link:
http://beta.icm.edu.pl/PISAoccupations2012/.

The app allows for comparisons of average performance in mathematics/reading/science of 15-years old pupils in PISA study across different groups of parental occupations.
Are kids of Professionals ‘on average’ performing better than kids of other professions?

You can also compare countries or regions to check if spread of occupational averages is larger or smaller here or there.

The nice thing about this article and results is that they are created entirely in R (data, results and R codes are open).

R sources of this app are available on github: https://github.com/pbiecek/PISA2012lite/tree/master/ext/PisaInFocusOccupationsRegions

PISA 2012, zawód rodzica a aplikacje w Shiny

Wczoraj OECD opublikowało raport „Do parents’ occupations have an impact on student performance?”.

Do raportu dodano aplikacje, pozwalającą na porównywanie średnich wyników 15-latków z badania PISA w zależności od zawodu rodzica. Zgodnie z klasyfikacją ISCO zawody podzielone są na 10 głównych grup zgodnie z kolejnością zapotrzebowania na umiejętności (od specjalistów po najprostsze czynności).

W większości krajów, również w Polsce, dzieci, których rodzice pracują jako specjaliści lepsze wyniki niż dzieci, których rodzice nie pracują lub pracują w zawodach nie wymagających zaawansowanych umiejętności. Na to oczywiście składa się wiele rzeczy, choćby różnica w zamożności, poziomie edukacji rodziców, dostępności określonych zawodów, ale zawód rodzica jest zmienną, którą łatwo zdefiniować i zrozumieć.

Co ciekawe, gdy zestawić wyniki dla Polski i wyniki dla np. Finlandii (uważanej za europejskiego czempiona) okazuje się, że w większości grup zawodowych polscy uczniowie mają wyższe wyniki. Ostatecznie jednak średnia w Polsce jest niższa, ponieważ jest mniejszy rynek 'wyspecjalizowanych zawodów’.

Jeżeli spojrzeć na wyniki dzieci, których rodzice pracują w zawodach wymagających wyższych umiejętności, to polskie 15-latki mają jeszcze lepsze wyniki niż gdy porównywać średnie dla krajów. Dzieje się tak kosztem większego zróżnicowania wyników pomiędzy dziećmi różnych grup zawodowych.

Aplikacją można pobawić się tutaj: http://beta.icm.edu.pl/PISAoccupations2012/

Źródła tej aplikacji są dostępne na serwisie github: https://github.com/pbiecek/PISA2012lite/tree/master/ext/PisaInFocusOccupationsRegions

WZUR x12 = SER [Spotkania Entuzjastów R]

ICM i nasza fundacja będą organizować comiesięczne spotkania użytkowników programu statystycznego R. Spotkania będą odbywały się w formule dwóch-trzech krótkich prezentacji (prezentacja z dyskusją zamknie się w 30 minutach) rozdzielonych półgodzinną przerwą na rozmowę i wymianę doświadczeń. Mam nadzieje, że te spotkania będą miejscem ciekawej wymiany myśli i doświadczeń osób zarówno z szeroko rozumianego przemysłu jak i akademii.

Tematyka aktualnie planowych referatów krąży wokół programu R, metod analizy danych i ciekawych przypadków użycia.
Termin najbliższego spotkania to czwartek, 27 luty, godzina 17:30, sala 201 na 2 piętrze w budynku ICM na Prostej 69.

Referaty na najbliższe spotkanie to:
17:30 – Miron Kursa,
Segmentacja szczurzej lokalizacji w R
18:30 – Michał Bojanowski,
Lifehacking dla R: przemyślenia i rozwiązania w temacie reprodukowalności analiz i organizacji pracy

Zapowiada się więc bardzo ciekawie.

Z uwagi na ograniczoną ilość miejsca w sali 201, osoby chętne proszę o rejestracje z użyciem formularza
https://docs.google.com/forms/d/1PQ4cV6LDLiZ0HIrz-eFcrJ0c-KWoPoqosHje39thHzo/viewform

Udział jest bezpłatny, należy się jednak zarejestrować by zapewnić sobie miejsce siedzące i przydział przekąsek.


Wyświetl większą mapę

Dlaczego?

W latach 2008 – 2012 organizowałem lub pomagałem w organizacji konferencji WZUR [Warszawskich/Wrocławskich Zlotów Użytkowników R]. Formuła spotkania polegała na spotkaniu się raz w roku przez jeden-dwa dni w gronie osób zainteresowanych używaniem R. Spotkania były moim zdaniem bardzo udane, miałem okazję na poznanie wspaniałych osób pracujących z R w Poznaniu, Krakowie, Toruniu, Gdańsku, Lublinie, Katowicach, Warszawie, Wrocławiu i kilku innych miejscach. W wyniku różnych zawirowań życiowych piąta edycja była dla mnie edycją ostatnią.

Ale teraz, od dwóch miesięcy pracuję w ICM razem z osobami korzystającymi często i wydajnie z R. Był to impuls by reaktywować spotkania użytkowników R, ale w zmienionej formule. Najbardziej do gustu przypadła mi formuła spotkań PAZUR poznańskich użytkowników R. Stąd też pomysł na SER.

Czwarte miejsce

Igrzyska olimpijskie w Soczi to jeden z głównych tematów w ostatnim czasie. Przy okazji powstają ciekawe (=pomysłowe) graficzne prezentacje tego co się na igrzyskach dzieje.

Bardzo przypadła mi do gustu wizualizacja z New York Timesa (tutaj źródło) w której przedstawiono ,,ile zabrakło” zdobywcom trzeciego miejsca do miejsca medalowego.

Czwarte miejsce Aksela Svindala (bieg zjazdowy) wyglądało tak:



a czwarte miejsce Svena Thorgrena (snowboard) wyglądało tak:



A czy ciekawi jesteście jak wyglądał w tym ujęciu złoty medal Kamila Stocha?
Wyglądał tak (rywale pozostali daleko w tyle):



Aaaaa… dam pracę

Czasem trafiają do mnie zapytania w stylu ,,szukam statystyka/analityka/informatyka do projektu naukowego”. Stwierdziłem, że będę te ciekawsze umieszczał tutaj na blogu z tagiem 'praca’. Dziś oferta z Instytutu Badań Edukacyjnych.

  • Oferta z IBE ,,Specjalista ds. modelowania statystycznego”

    Wymagania: Biegłe posługiwanie się pakietem R w zakresie przekształcania danych i analiz regresji liniowej. Znajomość SQL i relacyjnego modelu danych.
    Więcej informacji na tej stronie

SciVis 2013

National Science Foundation (NSF) razem z czasopismem Science organizują corocznie konkurs International Science & Engineering Visualization Challenge na najlepszą wizualizację naukową.
O ostatnim dowiedziałem się (dzięki uprzejmości INPRIS) z tej strony BusinessInsider.

Zgłoszenia robią wrażenie. Przyjmowano je do pięciu kategorii: Fotografia, Ilustracja, Plakat, Video, Gra lub aplikacja. I w każdej kategorii są prawdziwe perełki.

Poniżej przedstawiam dwa, moim zdaniem najciekawsze projekty. Więcej zobaczyć można na stronach konkursu ScieVis.

Zgłoszenie w kategorii gra dla gry Meta!Blast (można ją pobrać z tej strony, uwaga 2GB). W tej grze 3D ratuje się naukowców ,,latając” np. po liściu, przy okazji można się nauczyć jak wygląda powierzchnia liścia (w różnych skalach). Świetna zabawa.

Zgłoszenie w kategorii ilustracja, przedstawiające chmurę popularnie używanych haseł. Nie jest to może 'rocket science’ w wizualizacji danych, ale znalazło się tutaj, ponieważ było najbliższe temu co nazywam grafiką statystyczną. Mam nadzieję że w kolejnych edycjach SciVis będzie więcej grafik statystycznych.

Rocket science, ale czy Rocket visualisation?

Tryb narzekania: on

W serwisie technologie.gazeta.pl znalazłem taką oto infografikę:

Liczby, które ona przedstawia, to wysokość finansowania Budżetu Europejskiej Agencji Kosmicznej. Mamy więc tę bardzo bogatą informację przedstawioną za pomocą rakiet. Ale co z tych rakiet odpowiada wielkości udziału danego państwa w budżecie?

  • pozycja na osi poziomej? Nie (nie wiem czy pozycja na tej osi ma znaczenie),
  • pozycja na osi pionowej? Nie (im wyżej tym średnio więcej w budżecie, ale jest sporo wyjątków),
  • wysokość rakiety? Nie,
  • pole rakiety? Tak!

Pole nie jest złe. Szkoda tylko, że pozostałe charakterystyki wykresu (pozycja, kolejność) nic nie wnoszą.
Wykres wygląda na bardzo bogaty w treść, a w sumie pokazuje jedynie udział krajów (i UE) w budżecie ESA.
[Mógłby znacznie więcej, wystarczyło dodać dane o budżetach tych krajów a znalazłoby się zastosowanie i dla pozycji wzdłuż osi pionowej i poziomej]

Tryb narzekania: off

Akcja ,,Więcej Dobrej Nauki”

Poniżej wklejam ogłoszenie przesłane przez prof. Janusza Bujnickiego, dotyczące bardzo ciekawej inicjatywy warsztatów pisania lepszych grantów.

 

 

Szanowni Państwo,

 

Organizuję Akcję „Więcej Dobrej Nauki”, której celem jest wsparcie polskich naukowców (niezależnie od reprezentowanej dyscypliny badawczej) w przygotowywaniu wniosków grantowych o finansowanie projektów badawczych tak, aby dobre pomysły przekuć na projekty o wysokim prawdopodobieństwie sukcesu. Przedsięwzięcie to obiecałem zrealizować w trakcie plebiscytu „Polacy z Werwą”.

 

Akcja Więcej Dobrej Nauki skierowana jest przede wszystkim do naukowców z niewielkim doświadczeniem w aplikowaniu o granty i zdobywaniu funduszy na badania (m.in. młodych i/lub z małych ośrodków akademickich), zwłaszcza do osób, które już złożyły wniosek grantowy na realizację swoich pomysłów badawczych w Polsce np. do Narodowego Centrum Nauki, ale ich projekt został skrytykowany i nie otrzymał finansowania, a sami autorzy nie wiedzą, jak poprawić wniosek tak, żeby następna wersja wniosku wypadła dużo lepiej. Chodzi o to, żeby zidentyfikować projekty naukowe, które mają duży potencjał, ale nie zostały docenione głównie ze względu na brak „kunsztu grantopisarskiego” autorów. Udział doświadczonych ekspertów jako trenerów będzie miał na celu wsparcie autorów dobrych pomysłów w zrealizowaniu ich pełnego potencjału.

 

Planuję zrealizować tę Akcję w trzech etapach:

  1. Chcę spotkać się z potencjalnie zainteresowanymi osobami w średniej wielkości ośrodkach akademickich w Polsce (w lutym i pierwszej połowie marca 2014), żeby opowiedzieć o tym, jakie są najważniejsze zasady oceny wniosków grantowych i w jaki sposób należy je przygotowywać, żeby ta ocena była możliwie najwyższa. Planuję skupić się na badaniach podstawowych i na grantach oferowanych przez NCN. Chcę także zebrać komentarze od potencjalnych uczestników, żeby móc dostosować kolejne etapy do ich potrzeb.
  2. Najważniejszym elementem akcji mają być całodniowe warsztaty, które planuję zrealizować w Warszawie, podczas których uczestnicy będą mieli możliwość szczegółowo omówić swoje projekty (i otrzymane recenzje) z ekspertami, naukowcami z dużym doświadczeniem w przygotowywaniu i w ocenianiu wniosków grantowych, którzy doradzą uczestnikom jak poprawiać wnioski. Ten etap planuję zorganizować w drugim kwartale 2014 – tak, żeby zdążyć przed terminem składania wniosków OPUS/PRELUDIUM/SONATA 17 czerwca 2014 w NCN [http://www.ncn.gov.pl/finansowanie-nauki/konkursy/harmonogram]. Wg. harmonogramu wnioski złożone w tych konkursach będą ocenione przez NCN do 17 grudnia.
  3. Po ogłoszeniu wyników ww. konkursów, na początku 2015 r. planuję zorganizować kolejne spotkanie. Chociaż mam nadzieję, że dużej części uczestników uda się otrzymać pozytywną decyzję o finansowaniu ich projektów wypracowanych w ramach warsztatów, byłoby nierealistyczne zakładać, że uda się to wszystkim. Ci, którzy będa chcieli omówić nowe recencje (jak również nowi zainteresowani), będą mieli ponownie szansę spotkania z ekspertami.

 

Moje podróże na lokalne spotkania oraz przyjazd ekspertów na warsztaty w Warszawie a także inne niezbędne wydatki organizacyjne planuję sfinansować ze środków w ramach nagrody, którą otrzymałem zwyciężając w plebiscycie „Polacy z Werwą”.

 

Kilka słów wyjaśnienia, jak wyobrażam sobie warsztaty w ramach Akcji Więcej Dobrej Nauki:

 

To nie mają być warsztaty w stylu: „jak napisać mój pierwszy grant” (dla osób, które np. nigdy jeszcze nie miały okazji wypełniać formularza grantowego), bo takich warsztatów organizowanych jest wiele, finansowanych np. przez różne programy unijne, których ja nie chcę duplikować. Praca w trakcie warsztatów Akcji Więcej Dobrej Nauki będzie polegała głównie na analizie wniosków grantowych już wcześniej napisanych przez uczestników i ocenionych przez recenzentów, żeby znaleźć sposoby na napisanie lepszego wniosku w przyszłości. Warsztaty mają polegać głównie na pracy uczestnika z niezależnym ekspertem, który przed warsztatami będzie miał okazję zapoznać się z wnioskiem i recenzjami, a w trakcie spotkania przekaże swoje uwagi i sugestie uczestnikowi i w miarę możliwości odpowie na jego pytania; mam nadzieję, że przy okazji będzie możliwe poruszenie ważnych tematów takich jak planowanie kariery, strategia publikowania wyników badań itp. Planuję, że w ciągu jednego dnia jeden ekspert spotka się z ok. 6-8 uczestnikami. Na razie nie planuję intensywnych interakcji pomiędzy uczestnikami.

 

Rekrutacja na warsztaty będzie się odbywała przez internet, na podstawie przesłanego streszczenia wcześniej złożonego wniosku i informacji o jego ocenie. Szczegóły rekrutacji ogłoszę po zakończeniu pierwszego etapu (spotkań lokalnych).

 

Liczba uczestników będzie zależała od zainteresowania i rozkładu zainteresowanych pomiędzy poszczególne dziedziny, jak i od dostępności ekspertów, którzy zgodzą się wziąć udział jako „trenerzy/mentorzy”. Byłbym bardzo zadowoloby gdyby udało mi się włączyć do Akcji Więcej Dobrej Nauki w sumie 100 uczestników (co będzie wymagało zaangażowania przeze mnie do 15 ekspertów). Jak na tę chwilę wcale nie jestem pewien, czy uda mi się znaleźc tylu chętnych… ale chciałbym się mylić! Jeżeli liczba chętnych przekroczy 100, to na warsztaty preferencyjnie zapraszani będą uczestnicy, którzy nadeślą zgłoszenie wcześniej oraz tacy, których wniosek będzie według mnie lepiej pasował do schematu warsztatów (w szczególności temat i streszczenie wniosku, które będzie się przesyłało). Udało mi się już znaleźć grupę doświadczonych naukowców z różnych dyscyplin, którzy wyrazili zainteresowanie zaangażowaniem się w akcję w roli ekspertów i mam ogromną nadzieję, że chętnych będzie więcej. Ostateczna decyzja ilu i których ekspertów zaangażować, będzie zależała od tego ilu uczestników się zgłosi na warsztaty i jakie dziedziny będa reprezentować ich projekty.

 

Na warsztaty preferencyjnie zapraszani będą uczestnicy spełniający następujące kryteria:

  • Zdecydowane pierwszeństwo będą mialy osoby, które w chwili odbycia warsztatów już będą miały doświadczenie z napisaniem wniosku (najlepiej do NCN, ale nie wykluczam też innych, np. NPRH, NCBR itp) – tzn. wniosek grantowy napisały i wysłały, został on oceniony krytycznie ale nie tak źle, że kierownik dostał zakaz składania wniosku ponownie. Jeżeli chętnych spełniających tego kryterium będzie niewielu, to być może wezmę pod uwagę także takich aplikantów, którzy jeszcze nie mieli złożonego i zrecenzowanego wniosku, ale podejmą się przygotowania wniosku przed warsztatami.
  • Pierwszeństwo będą miały projekty w zakresie nauk podstawowych (bo na tym sam znam się najlepiej i chciałbym zachować spójność warsztatów – wolę tak, niż próbować za jednym zamachem zająć się „naprawą wszystkiego”, bo to nie miałoby szans powodzenia).
  • Pierwszeństwo będą miały osoby na wczesnym i średnim etapie kariery, które mają problem z jednym ze swoich pierwszych grantów do NCN (czyli np. potencjalni beneficjenci programów PRELUDIUM i SONATA, ewentualnie OPUS).
  • Pierwszeństwo będa miały osoby ze średnich i małych ośrodków akademickich (uważam, że naukowcom z dużych ośrodków znacznie łatwiej jest zorganizować sobie pomoc we własnym zakresie; naukowcy z Warszawy, Krakowa, czy Gdańska mogą poprosić o pomoc eksperta pracującego w tym samym mieście, często w tym samym budynku – zachęcam więc do kontaktu z doświadczonymi kolegami!).

 

W tej chwili PILNIE poszukuję osób w średniej wielkości ośrodkach akademickich, takich jak np. Białystok, Szczecin, Olsztyn, Rzeszów, Katowice, Zielona Góra itp., które mogłyby pomóc mi w organizacji spotkań na pierwszym etapie od strony lokalnej. Przede wszystkim potrzebuję pomocy w zorganizowaniu sali na spotkanie i ogłoszeniu/rozreklamowaniu spotkania w lokalnym środowisku, żeby mogło w nim uczestniczyć możliwie najwięcej osób. Wszystkich zainteresowanych proszę o pilny kontakt (najlepiej do połowy lutego) na adres granty@genesilico.pl, z dopiskiem „Akcja Więcej Dobrej Nauki” w tytule wiadomości.

 

Będę również wdzięczny za wszelkie inne sugestie, komentarze i oferty pomocy.

 

Łączę wyrazy szacunku
Janusz Bujnicki