MI^2 rekrutuje

Screen Shot 2015-05-16 at 00.19.57

Jakiś czas temu pisałem o grupie MI^2 (rozpiętej pomiędzy wydziałami matematyki i informatyki MIM UW a MINI PW).

Trwa rekrutacja do projektów planowanych w tej grupie na ferie zimowe lub letnie. Lista aktualnie zgłoszonych projektów znajduje się na tej stronie.

Aby wziąć udział w projektach nie trzeba być studentem żadnego z tych wydziałów, ale trzeba mieć czas, ochotę i chęć mierzenia się z czasem trudnymi problemami związanymi z analizą danych.

Choinka a SER

ctree

Grudniowy SER był bardzo techniczny i bardzo udany. Prezentacje obu prelegentów można pobrać z GitHuba. Kornel miał kilka animowanych gifów i te będą działały tylko pod Keynote, pdf jest statyczny.

Choinka otwierająca ten wpis została przygotowana w GGplocie przez Czarka Chudziana (kod na GitHub). Wszystkie osoby, które przesłały choinki otrzymają SERowe notesy!

Na koniec roku, jak co roku, przygotowujemy głosowanie na najgorszą infografikę. Mam już kilka niesamowitych kandydatur, ale jeżeli trafiliście na coś wyjątkowo zaciemniającego dane, przekłamującego, zniekształcającego liczby lub po prosty zabawnego to podeślijcie.

Statystyk jak szewc

buty
Dzieci przynoszą ze szkoły dziwne prace domowe, np. do jakiego zawodu podobny jest zawód twojego taty. Po kilku nieudanych próbach (kosmonauta, kierowca formuły 1, strażak) stwierdziłem, że zawód statystyka całkiem przypomina zawód szewca. Dlaczego?

Nie, nie chodzi o to, że dużo pije i przeklina jak coś mu nie wyjdzie (czytaj: dużo przeklina). To stereotypy. Chodzi o to, że w obu cechach rzemieślniczych, można wyróżnić podobne podgrupy.

Czytaj dalej Statystyk jak szewc

Rrrrrrrrr, dam pracę

Kontynuując temat ogłoszeń z ofertami pracy w okolicach R i analizy danych, dziś coś z KNF.

Poszukuję kandydatów do pracy w zespole zajmującym się projektowaniem, implementowaniem i utrzymywaniem modeli ryzyka rynkowego, kredytowego, ubezpieczeń na życie i ubezpieczeń osobowo-majątkowych.

Pożądane cechy kandydata:
– umiejętność pracy w grupie (matematyków)
– solidne opanowanie podstaw statystyki
– minimum kilkumiesięczne doświadczenie w implementowaniu modeli
– doświadczenie z C++ i R
– dociekliwość i kreatywność
– wykształcenie matematyczne lub ekonomiczne (ew. student studiów II stopnia)

Jeśli jesteś wstępnie zainteresowany i spełniasz minimum 4 powyższe cechy, to skontaktuj się ze mną wysyłając maila na adres: wielgosz.marek (na serwerze) gmail.com.

Uczyć się na cudzych błedach

Dostałem kilka dni temu list od Pawła K. w którym znalazło się kilka konstruktywnie krytycznych komentarzy dotyczących raportu Diagnoza Społeczna 2011. List ten zaczynał się od stwierdzenia, że warto udostępniać przykłady różnych ,,wpadek”, ponieważ studiując błędy można uczyć się szybciej, łatwiej też ogląda się cudze błędy niż własne. Ok, zobaczymy.

Przedstawię poniżej wybrane z komentarzy Pawła wraz z kilkoma słowami od siebie. Temat cytowanego raportu dotyczy wykorzystania komputera i internetu, a więc jest bardzo ciekawy.

W raporcie jest kilka problemów ze spójnością wyników prezentowanych na wykresach lub w tekście. Np. z poniższych dwóch wykresów można odczytać jaki % gospodarstw było w roki 2011 wyposażone w komputer.

Tyle, że w pierwszym przypadku odczytamy, że wyposażonych w komputer jest 66% osób a w drugim 58,6% (posiada i korzysta) +17,2% (posiada i nie korzysta)=75,8%. Spora różnica, prawie 10%. Znając strukturę danych raportu można odgadnąć skąd ta różnica się bierze ale osoba nieznająca struktury może być takimi różnicami zaskoczona (w badaniu są dwie osobne ankiety dla gospodarstwa i dla osób, procenty liczone na jednej nie muszą się zgadzać z procentami na drugiej, w tym przypadku jak widać gospodarstwa w których jest komputer są średnio liczniejsze) .

Pan Paweł zauważył też kilka cyfrówek (literówek występujących w liczbach), w opisie rysunku 7.1.1 jest rok 2009 zamiast 2011 a powyżej wykresu w tekście pojawia się informacja o dostępności internetu dla 61,1% zamiast 51.1%.

Interesującym problemem jest tempo ,,nasycania się” gospodarstw domowych komputerami. W raporcie jest napisane, że skomputeryzowanych gospodarstw przybywa, ale w coraz mniejszym tempie. Zobaczmy, pobawmy się liczbami. Pomiędzy latami 2007  – 2009 – 2011 skomputeryzowanych gospodarstw było 53,8%; 60,2%; 66% odpowiednio. Gdyby policzyć różnicę pomiędzy tymi wartościami to okaże się że z roku 2007 na 2009 ,,przybyło” 6,4 p.p. a z roku 2009 na 2011 ,,przybyło” 5.8 p.p. czyli mniej. Ale zobaczmy ile z gospodarstw, które nie miały komputera nabyło komputer, czyli policzymy ilorazy zamiast różnic. (Dla uproszczenia opisu zakładam, że gospodarstwa nie pozbywają się komputerów). Z roku 2007 na 2009 około 13,9% gospodarstw niemających komputera skomputeryzowało się, z roku 2009 do roku 2011 około 16,8% gospodarstw niemających komputera skomputeryzowało się. Patrząc więc na ilorazy można powiedzieć, że tempo komputeryzacji się zwiększa. Czy tempo to różnice czy ilorazy to rzecz do dyskusji, ale ciekawe jest to, że nawet na tempo wzrostu trzech liczb można spojrzeć na przynajmniej dwa sposoby.

Spójrzmy też na rysunek 7.2.3 z tego raportu.

Problem z tym rysunkiem polega na tym, że sugeruje iż więcej 20-letnich polaków korzysta z internetu niż ma do niego dostęp. To trochę zaskakujące! To interesujące zjawisko nie zostało niestety wyjaśnione w tekście, być może chodzi wyłącznie o dostęp do Internetu w domu, ale to tylko domysł.

Swoją drogą, warto  zwrócić uwagę na pionowe linie pokazujące odległość pomiędzy niebieską a czarną krzywą. Dodanie pionowych linii to interesujący zabieg pozwalający na lepsze ocenienie odległości ,,w pionie”. Bez tych linii oko za odległość pomiędzy liniami byłoby skłonne uznawać najmniejszą odległość a nie odległość ,,w pionie”.

Zaskoczeniem dla mnie była obserwacja, że około 75% z 10 latków korzysta z internetu. Sporo. A jeżeli spojrzeć na rysunek 7.4.13 to okaże się, że w domu z internetu korzysta nawet więcej, bo 81% z 10-latków.

 

Ok, czas na wnioski. Błądzić to ludzka rzecz i nie wypada mi za bardzo się pastwić dzisiaj nad literówkami, bo kilka godzin temu dostałem kolejną listę literówek znalezionych w mojej książce (dzięki Krzysiek! errata uaktualniona!). Z drugiej strony raporty Diagnozy Społecznej, są bardzo interesujące, myślę, że wiele osób z nich korzysta i warto dbać by były możliwie bezbłędne (w przeciwieństwie do raportów typu ,,write-only” na których komentowanie szkoda czasu).

Czego więc możemy się nauczyć na błędach innych? Trzeba stworzyć czytelnikowi raportu kanał komunikacji, którym czytelnik mógłby zgłaszać lub sam wprowadzać drobne poprawki / dodawać komentarze /zgłaszać uwagi. Strona wiki z możliwością komentowania byłaby najlepsza, ale pewnie i adres email na który można wysyłać uwagi wystarczy. Może raport dla kolejnej edycji badania pojawi się w formie bardziej interaktywnej?

4+1+5 = 10

 

Tak jak pisałem w poprzednim wpisie, planuję odbyć 10 rozmów na tematy około-blogowe zanim będę kontynuował pisanie na tym blogu.

Pomysł na 10 rozmów, w chwili gdy przyszedł mi do głowy, wydawał się tak nieracjonalny, że wręcz musiałem go wcielić w życie z czystej ciekawości jak się ten eksperyment zakończy.

Do dzisiaj miałem już przyjemność spotkania i porozmawiania z czterema osobami. W większości (ile to jest większość z 4?) nieznanymi mi wcześniej. Do tego obietnica jednego spotkania po długim weekendzie daje już połowę z zaplanowanych spotkań. Ponieważ eksperyment dla mnie był bardzo nowy, podzielę się kilkoma wrażeniami na gorąco.

Pierwsze cztery spotkania pozwoliły mi na spojrzenie na temat analizy danych z RÓŻNYCH stron. Dużo się pisze o interdyscyplinarnych zespołach i o tym jak pomysły osób o różnych doświadczeniach mogą prowadzić do ciekawych rozwiązań. Brałem kilka razy udział w sesjach burzy mózgów osób i myślałem, że wiem co to interdyscyplinarność. Ale tamte panele były znacznie uboższe w pomysły niż te cztery rozmowy, które miałem przyjemność przeżyć. Wiele pewnie jest ku temu powodów, ale z perspektywy kilku dni uważam, że pomysł na te rozmowy był bardzo trafiony. Cztery rozmowy z czterema osobami pozwalają na znacznie szersze spojrzenie na to co się robi. A co dopiero dziesięć.

Co ciekawe im więcej rozmawiam z ludźmi o ich wyobrażeniu czemu służyć powinna statystyka, tym większą widzę przepaść pomiędzy statystyką matematyczną a oczekiwaniami dotyczącymi analizy danych. To nie jest kwestia przesunięcia akcentu to są dwa różne sposoby myślenia. Tak więc rozmowy z nie-‘statystykami matematycznymi’ o statystyce bardzo poszerzyły mój horyzont widzenia.

Osoby, które zgodziły się na rozmowę nie są ,,przypadkowe”. Nie każdy, czy wręcz niewiele osób, ma czas, chęć, energię, widzi sens/ma ochotę na taką rozmowę. A jeżeli ktoś już widzi sens/ma ochotę to przeżył najpewniej coś o czym warto usłyszeć. Bardzo dziękuję tej czwórce ( piąty w drodze), za to że znaleźli czas i chęci by się spotkać i porozmawiać.

 

Rozmowy były najczęściej na bardzo ciekawym i wysokim poziomie abstrakcji. Ale aby zachęcić przyszłych poniżej zbiorę wybiórczo kilka suchych, niskopoziomowych propozycji, które się pojawiły.

  • Poprawić design bloga co zwiększy ,,przyswajalność” treści.
  • Walczyć z ,,brudną” statystyką i wciskaniem kitu przez media i polityków.
  • Rzadsze wpisy, np. raz na tydzień.
  • Mniej o cenach mieszkań/samochodów, więcej o tematach społecznych.
  • Przetestować możliwości interaktywnej grafiki w opisie interesującego zjawiska.
  • Poprawić ,dziennikarski warsztat’ blogera, stronę językową, streszczenie do wpisów, kontrolowana długość wpisów.
  • Więcej opinii, mniej suchych wyników. Dotąd pozostawiałem interpretację wyników czytelnikowi ale może warto jakąś zasugerować.
  • Znaleźć kogoś na miejsce ,,pierwszego czytelnika”, który skomentuje wpis zanim on się publicznie ukaże.
  • Wykorzystanie fundacji w celu pozyskania drogą oficjalną różnych danych, użytecznych ale nie dostępnych nigdzie publicznie.
  • Zatrudnienia kilku studentów do przejrzenia mediów elektronicznych i pozbierania dziesiątek przykładów złych grafik.
  • Poświęcenie większej ilości czasu jednemu zjawisku, np. edukacji na poziomie gimnazjum.

Dziękuję też za komentarze pod poprzednim wpisem, celowo na nie nie odpowiadam, mając nadzieję raczej na znacznie bogatszą w środki przekazu rozmowę w świecie rzeczywistym.

 

Zmiana dochodów w ostatnich 8 latach w podziale na płeć

Analiza zróżnicowania dochodów bardzo mnie interesuje. To jednak większy temat i poświęcimy mu więcej czasu kiedy indziej. Dziś chciałbym podzielić się jednym wykresem, na którym zobaczymy jak wyglądał rozkład dochodu netto ankietowanego w zależności od wieku i w zależności od płci, tak w roku 2003 jak i w roku 2011. Oczywiście złotówka dzisiaj i wtedy to dwie różne złotówki, nie sposób przeliczyć siły nabywczej teraz i wtedy bo zależy ona od koszyka zakupów. Inaczej wyglądała zmiana cen artykułów luksusowych, inaczej zmiana cen jedzenia a inaczej zmiana cen mieszkań. W każdym razie na potrzeby tego rysunku wykorzystam wskaźnik inflacji dla tych 8% wynoszący 23.7% (na podstawie http://blog.opiekuninwestora.pl/index.php/inflacja/). Więc przedstawiane ceny to albo ceny podane w roku 2011, albo ceny podane w roku 2003 i skorygowane o inflacje.

W poniższych ilustracjach nie analizujemy osobno osób żyjących samotnie (tzw singli), par bez dzieci (DINKs) i par z dziećmi, choć pewnie pomiędzy tymi trzema grupami są znaczne różnice, ale nie wszystko na raz.

Ciągła linia to wygładzona ocena mediany, przerywana to kwantyl rzędu 90%.
Dużych niespodzianek nie ma, ale niektóre wyniki są ciekawe.
Po pierwsze, nawet po uwzględnieniu inflacji zarobki wzrosły (nie tylko ankietowanych, bo to jest oczekiwane, ale tez rozkład zarobków w grupie wiekowej np 30 latków). I to wzrosły znacznie. Oby związane to było z większa produktywnością a nie spadkiem wartości złotówki.
Po drugie kobiety zarabiają mniej. Dotyczy to i medianowych zarobków i kwantyla 90%.
Po trzecie, i chyba najciekawsze, w roku 2011 wyraźnie widać, że najwyższe dochody uzyskują osoby w wieku 30-40 lat.
Biorąc pod uwagę, że oś oY jest logarytmiczna, zarówno osoby młodsze jak i starsze zarabiają znacznie mniej. U kobiet ten okres wyższych dochodów kończy się wcześniej niż u mężczyzn, ale u obu płci kończy się czy to patrząc na medianę czy na kwantyl 90%.
Inaczej było w roku 2003. Nie było wtedy tak dużych dysproporcji związanych z wiekiem, szczególnie jeżeli porównywać mediany dochodów. Ciekawe czy to zróżnicowanie będzie się jeszcze pogłębiało.

To pierwsza ilustracja. Czas na dokładniejsze drążenie tematu. Kierunków badania czynników różnicujących wysokość dochodów jest dużo. Może macie propozycje od czego zacząć?