4+1+5 = 10

 

Tak jak pisałem w poprzednim wpisie, planuję odbyć 10 rozmów na tematy około-blogowe zanim będę kontynuował pisanie na tym blogu.

Pomysł na 10 rozmów, w chwili gdy przyszedł mi do głowy, wydawał się tak nieracjonalny, że wręcz musiałem go wcielić w życie z czystej ciekawości jak się ten eksperyment zakończy.

Do dzisiaj miałem już przyjemność spotkania i porozmawiania z czterema osobami. W większości (ile to jest większość z 4?) nieznanymi mi wcześniej. Do tego obietnica jednego spotkania po długim weekendzie daje już połowę z zaplanowanych spotkań. Ponieważ eksperyment dla mnie był bardzo nowy, podzielę się kilkoma wrażeniami na gorąco.

Pierwsze cztery spotkania pozwoliły mi na spojrzenie na temat analizy danych z RÓŻNYCH stron. Dużo się pisze o interdyscyplinarnych zespołach i o tym jak pomysły osób o różnych doświadczeniach mogą prowadzić do ciekawych rozwiązań. Brałem kilka razy udział w sesjach burzy mózgów osób i myślałem, że wiem co to interdyscyplinarność. Ale tamte panele były znacznie uboższe w pomysły niż te cztery rozmowy, które miałem przyjemność przeżyć. Wiele pewnie jest ku temu powodów, ale z perspektywy kilku dni uważam, że pomysł na te rozmowy był bardzo trafiony. Cztery rozmowy z czterema osobami pozwalają na znacznie szersze spojrzenie na to co się robi. A co dopiero dziesięć.

Co ciekawe im więcej rozmawiam z ludźmi o ich wyobrażeniu czemu służyć powinna statystyka, tym większą widzę przepaść pomiędzy statystyką matematyczną a oczekiwaniami dotyczącymi analizy danych. To nie jest kwestia przesunięcia akcentu to są dwa różne sposoby myślenia. Tak więc rozmowy z nie-’statystykami matematycznymi’ o statystyce bardzo poszerzyły mój horyzont widzenia.

Osoby, które zgodziły się na rozmowę nie są ,,przypadkowe”. Nie każdy, czy wręcz niewiele osób, ma czas, chęć, energię, widzi sens/ma ochotę na taką rozmowę. A jeżeli ktoś już widzi sens/ma ochotę to przeżył najpewniej coś o czym warto usłyszeć. Bardzo dziękuję tej czwórce ( piąty w drodze), za to że znaleźli czas i chęci by się spotkać i porozmawiać.

 

Rozmowy były najczęściej na bardzo ciekawym i wysokim poziomie abstrakcji. Ale aby zachęcić przyszłych poniżej zbiorę wybiórczo kilka suchych, niskopoziomowych propozycji, które się pojawiły.

  • Poprawić design bloga co zwiększy ,,przyswajalność” treści.
  • Walczyć z ,,brudną” statystyką i wciskaniem kitu przez media i polityków.
  • Rzadsze wpisy, np. raz na tydzień.
  • Mniej o cenach mieszkań/samochodów, więcej o tematach społecznych.
  • Przetestować możliwości interaktywnej grafiki w opisie interesującego zjawiska.
  • Poprawić ,dziennikarski warsztat’ blogera, stronę językową, streszczenie do wpisów, kontrolowana długość wpisów.
  • Więcej opinii, mniej suchych wyników. Dotąd pozostawiałem interpretację wyników czytelnikowi ale może warto jakąś zasugerować.
  • Znaleźć kogoś na miejsce ,,pierwszego czytelnika”, który skomentuje wpis zanim on się publicznie ukaże.
  • Wykorzystanie fundacji w celu pozyskania drogą oficjalną różnych danych, użytecznych ale nie dostępnych nigdzie publicznie.
  • Zatrudnienia kilku studentów do przejrzenia mediów elektronicznych i pozbierania dziesiątek przykładów złych grafik.
  • Poświęcenie większej ilości czasu jednemu zjawisku, np. edukacji na poziomie gimnazjum.

Dziękuję też za komentarze pod poprzednim wpisem, celowo na nie nie odpowiadam, mając nadzieję raczej na znacznie bogatszą w środki przekazu rozmowę w świecie rzeczywistym.

 

I co dalej?

Dzisiejszy wpis jest ostatnim w kwietniu. Przed nami dłuższa przerwa spowodowana moim wyjazdem. Umieszczę więc poniżej kilka zdań podsumowania z dotychczasowej działalności i zwrócę się do Was wszystkich z apelem o pomoc. Niecierpliwym sugeruję czytanie od ostatniego akapitu.

Najpierw kilka słów wprowadzenia, później garść statystyk i wprowadzenie do apelu o pomoc.

Pierwszy wpis na tym blogu pochodzi z 15 września, mamy więc na karku 7 miesięcy blogowania. Ponieważ siódma miesięcznica zbiega się w czasie z wyjazdem w ramach którego nie będę miał ani czasu na opracowanie kolejnych ani dostępu do internetu, czas na małe podsumowanie.
Ten wpis jest 110. z kolei. Wpisy były bardzo różne.To zróżnicowanie było mi potrzebne aby sprawdzić jak mi się pisze na różne tematy. Jakieś zainteresowanie analizą i wizualizacją danych jest, świadczy o tym wiele komentarzy i jeszcze więcej osób subskrybujących kanał RSS i sporo osób trafiających i na stronę www a nawet umieszczających tu i ówdzie linki do niej (za co dziękuję). Pierwotnym celem było opracowanie platformy dla ,,crowd data mining” danych dotyczących Polski. Obecnie interakcja z zainteresowanymi osobami przebiega na poziomie komentarzy do wpisów lub emaili.
Wpisy pojawiały się na początku nieregularnie. Ostatnimi czasy pojawiają się regularnie trzy razy w tygodniu w poniedziałki, środy i piątki, ale na dłuższą metę nie jest możliwe przygotowywanie tak często wpisów mając też inne obowiązki.

Plan na najbliższą przyszłość to znalezienie formy w której będzie mi się dobrze pisało, w prace fundacji uda się zaangażować więcej osób, będzie możliwa dyskusja nt. interesujących danych i wyników ich analiz przy zachowaniu <szumnie> społecznej użyteczności </szumnie>.

I tutaj pojawia się apel do Was (i wiernych i przypadkowych czytelników). Jako zwolennik nieustannego sondowania gruntu, chciałbym, zanim fundacja wybierze jakiś kierunek wpierw rozszerzyć i przedyskutować bazę pomysłów nt. planu działania. Na stole są bardzo różne pomysły np. materiały dot. wizualizacji danych, kolumna w tygodniku pokazująca fragmenty rzeczywistości widoczne w danych, współpraca z resortem edukacji/nauki w celu opracowania i przedstawiania serii wyników dotyczących stanu polskiej edukacji/nauki, portal śledzący rzetelność informacji prezentowanych przez media i wiele innych pomysłów. Chciałbym tę listę znacząco poszerzyć zanim coś z niej wybierzemy. Chętnie też usłyszę komentarze nt. czytelności/ciekawości dotychczasowych wpisów.

Jak?

Mój plan jest następujący: jeżeli czytałeś/czytałaś wpisy z tego bloga i masz na ich temat lub zbliżony temat ciekawe wrażenia/opinie podziel się nimi ze mną. Wyślij mi te krótki, dwu- trzy- zdaniowy opis pomysłów/komentarzy mailem i porozmawiajmy o nich podczas lunchu (fundacja stawia). Zapraszam np. do pizzerii ,,A modo mio” przy ulicy Grójeckiej w Warszawie na spokojną rozmowę przy dobrym jedzeniu. Planuję zebrać pomysły od przynajmniej 10 osób. Każdy z Was (bez względu na wiek, wykształcenie, kolor skóry czy religię) jeżeli tylko chce może się przyczynić do prac fundacji przez podzielenie się pomysłem na jej rozwój.
Jak już zbiorę te pomysły podzielę się nimi na blogu i będziemy kontynuować.
Na lunch proszę się umawiać emailowo: przemyslaw.biecek na serwerze gmail.com, od kilku dni już nie mam dostępu do internetu ale z pewnością odpowiem po powrocie. Jeżeli macie pomysły/sugestie/opinie ale nie ma Was w Warszawie to podeślijcie je emailem. Najbardziej liczę na bezpośrednie rozmowy, innowacyjne pomysły, interesujące komentarze.

Edytor zbliżeniowy i opowiadanie historii, czyli ceny aut używanych w segmencie C część 3

Ostatnio, w tym wpisie, przedstawiałem wizualizacje cen aut używanych z segmentu C. Obiecałem też przedstawienie tych wizualizacji w postaci prezentacji. Złożyłem ta obietnicę celowo, by mieć pretekst do przetestowania programu ze strony prezi.com, reklamowanego jako ,,zooming presentation editor”. Dotąd przygotowywałem prezentacje w Beamerze i byłem z nich zadowolony, ale warto testować nowe rozwiązania.

Prezentacje wykonane w programie prezi wyglądają jak seria zbliżeń jednego dużego rysunku, przez co ma się wrażenie ciągłości historii i łatwiej zbudować w głowie mapę prezentacji. Edytor prezi jest dosyć ograniczony (we flashu można zrobić więcej), ale łatwo i intuicyjnie się go używa, wyniki są też dosyć przyjemne dla oka. Oczywiście aby wrażenie ciągłości i spójności pojawiło się w głowie odbiorcy, trzeba poświęcić trochę czasu na projektowanie prezentacji, więcej niż w przypadku zwykłych slajdów.

Prezentację z dodanym głosem umieszczam poniżej (nagrana z ekranu za pomocą programu Camtasia, wersja 30 dniowa). Zależało mi bardziej na zaprezentowaniu efektu zbliżeń niż na budowaniu emocjonującej historii, więc proszę wybaczyć usterki w audio i brak porywającej narracji. W każdym razie moje wrażenia po wykonaniu pierwszej prezentacji z użyciem ,,edytora zbliżeniowego” są bardziej niż pozytywne.

Może by w ten sposób przygotować materiały wideo do kursu ze statystyki?

(Jeżeli poniżej nie otwiera się materiał wideo, to proszę kliknąć na ten link)
 

Jak wyglądają ceny aut używanych w segmencie C, część 2

 

W poprzednim tygodniu (w tym wpisie) pisałem o tym jak modelować można cenę aut używanych, na przykładzie aut z segmentu C.

Dziś pokażę trzy wizualizacje tego zbioru danych, mam nadzieję, że interesujące.

Zobaczymy więc jak zmieniają się ceny aut w zależności od wieku aut, jak wygląda liczba oferowanych aut różnych marek i również jak wygląda wyposażenie aut różnych marek.

Zacznijmy od ceny.

[Rysunek 1. Rozkład cen ofertowych aut używanych w rozbiciu na markę i wiek auta. Czarna kropka odpowiada medianie, pudełka dolnemu i górnemu kwartylowi. Dla zwiększenia czytelności oś OY przedstawiono w skali logarytmicznej. ]

Spójrzmy teraz na dostępność ofert dla różnych marek. Dodatkowo przedstawimy liczbę oferowanych aut w danym roku w podziale na typy nadwozia.

[Rysunek 2. Liczba ofert sprzedaży używanego auta w rozbiciu na typ nadwozia, wiek auta i markę.  Dla niektórych modeli widoczna jest duża podaż +-5-letnich samochodów. Prawdopodobnie kończą się okresy gwarancyjne, auto się amortyzuje i takie auta są sprzedawane przez firmy leasingujące.]

I jeszcze rzut oka na wyposażenie.

[Rysunek 3. Na osi OY przedstawiono procent używanych aut oferowanych do sprzedaży, posiadających określony element wyposażenia. Najwięcej aut serwisowane w ASO stanowią auta mające 4 lata. Ciekawe trendy obserwuje się dla przyciemnianych szyb. Nowsze Astry, C4 i Cee’dy mają je coraz częściej, podczas gdy dla Audi A4 mamy odwrotny trend, przynajmniej  w ostatnich latach. Coraz więcej aut jest wyposażonych w takie elementy jak czujnik parkowania czy ESP (hmm, dziwny jest ten trend z ESP w Ceed’ach)]

 

Btw: wszystkie powyższe wykresy zostały wykonane funkcją xyplot() lub bwplot() w R z użyciem pakietu lattice.

Jakie są szanse na dożycie emerytury i ile pożyjemy na emeryturze. Czyli rzut oka na dane o trwaniu życia.

Motywacja

Dziś pokażę kilka wykresów, które mają się zmierzyć z pytaniem o szansę na dożycie wieku emerytalnego, średnią liczbę lat na emeryturze i średnią długość życia. Wszystko to w odniesieniu do planowanej reformy emerytalnej.

Zanim jednak zacznę temat emerytur, wytłumaczę się, dlaczego dziś nie będzie obiecanych w piątek wizualizacji cen aut. Otóż okazało się, że poniedziałkowy wpis cieszył się większą popularnością niż sumarycznie wszystkie wpisy w poprzednim miesiącu. Cóż to może oznaczać? Albo ktoś próbował ataku typu DDoS, albo też wiele osób szuka informacji o tym jaki wpływ na ich życie będzie miała reforma emerytalna. Nie jestem zwolennikiem kierowania się rankingami popularności, ale dla emerytury warto zrobić wyjątek. Wizualizacja cen aut pojawi się w piątek lub w przyszłym tygodniu a dzisiaj jeszcze raz przyjrzymy się tematowi emerytur (piszę jeszcze raz, ponieważ już pisałem w tych dwóch wpisach: tutaj i tutaj).

 

Wyniki

Dosyć szybko udało mi się ustalić listę interesujących mnie pytań dotyczących emerytur. Oto ona: Jaka jest szansa na dożycie do wieku emerytalnego. Jeżeli już dożyję, to jaka jest średnia liczba lat przeżytych na emeryturze. Jak wiek emerytalny ma się do średniej długości życia.

Mając pytania zacząłem szukać danych. Straciłem całą wczorajszą noc na próbach wyciągnięcia potrzebnych informacji z raportów GUS. Ale zarówno przeklejanie liczb z plików pdf jak i przeglądanie zakładek plików excelowych okazało się mało owocne. Porzuciłem więc to źródło danych na rzecz bazy danych http://www.mortality.org/. Na tej stronie są zebrane informacje o tablicach trwania życia i nie tylko dla różnych krajów, w tym Polski. Dla Polski dane są opracowane na podstawie rożnych raportów tak GUS jak i innych źródeł. Te dane różnią się trochę od danych prezentowanych na stronach GUS w roku 2011, ale nie są to duże różnice a dostęp jest nieporównanie łatwiejszy. Główna wada bazy danych mortality.org to dostępność danych tylko do roku 2009 (GUS ma dostęp do przynajmniej dwóch kolejnych lat plus bardziej zaawansowane prognozy dotyczące przyszłości, ale co z tego skoro nie można się do tych prognoz dostać).

 

Poniżej przedstawię kilka wyników. Zanim to jednak zrobię muszę jedną rzecz bardzo wyraźnie podkreślić. Wszystko co jest narysowane kolorem czarnym dotyczy liczb z bazy danych mortality.org. Kolorem szarym zaznaczyłem prognozę zakładającą, że umieralność w przyszłości będzie taka sama jak w roku 2009. Ponieważ jednak dominuje obecnie opinia, że będziemy żyć dłużej, więc dodałem też prognozę uwzględniającą wydłużający się czas trwania życia. Zrobienie takiej prognozy na najbliższych kilka jest trudne (zależy od płci, wieku, roku urodzenia i masy innych czynników). Prognozy na przyszłe trzydzieści lat mogą bardzo różnić się od rzeczywistości, należy je traktować jedynie jako ilustrację. Nie mogąc dobrać się do prognoz GUS pozostało mi więc zrobić własne prognozy. W większości przypadków opierają się one na prymitywnym założeniu, że dana cecha będzie rosła w podobnym tempie jak przez ostatnie 10 lat. Jest to śliskie założenie, szczególnie w perspektywie +30 lat, dlatego należy patrzeć na te wyniki z rezerwą.

 

Zacznijmy od wykresu przedstawiającego procent osób dożywających emerytury jako funkcję roku w którym uzyska się uprawnienia emerytalne.

[Rysunek 1. Frakcja osób dożywających emerytury jako funkcja wieku uzyskania uprawnień emerytalnych (bez żadnych ulg). Wyniki osobno dla kobiet i mężczyzn. Po roku 2013 procent dożywających spada ponieważ wiek emerytalny rośnie. Czerwona krzywa odpowiada założeniu, że z uwagi na rosnącą długość życia procent osób dożywających wieku emerytalnego będzie rosło o 0.15%/rok dla kobiet i 0.25%/rok dla mężczyzn (tak jak średnio w ostatnich 10 latach). Kliknij aby otworzyć wersję SVG].

Możemy teraz tę samą informację przedstawić jako funkcję od roku urodzenia.

[Rysunek 2. Frakcja osób dożywających emerytury jako funkcja roku urodzenia. Wyniki osobno dla kobiet i mężczyzn. Warto zauważyć, że z uwagi na zmieniający się wiek emerytalny po roku 2013 osoby starsze o 3 roczniki otrzymają emeryturę 4 lata później. Czerwona krzywa odpowiada założeniu, że z uwagi na rosnącą długość życia procent osób dożywających wieku emerytalnego będzie rosło o 0.15% dla kobiet i 0.25% dla mężczyzn (tak jak średnio w ostatnich 10 latach). Brak efektu II wojny światowej bierze się ze dostępności jedynie danych od roku 1958 (patrz opis metodologii poniżej). Kliknij aby otworzyć wersję SVG].

Zakładając, że już dożyliśmy emerytury, zobaczmy ile średnio lat będziemy z niej korzystać.

[Rysunek 3. Oczekiwane dalsze trwanie życia w chwili otrzymania uprawnień emerytalnych (zakładając brak ulg). Wyniki osobno dla kobiet i mężczyzn. Po roku 2013 średnia spada ponieważ wiek emerytalny rośnie. Czerwona krzywa odpowiada założeniu, że długość życia osób dożywających wieku emerytalnego będzie rosła o 0.15/rok dla kobiet i 0.125/rok dla mężczyzn (tak jak średnio w ostatnich 10 latach). Kliknij aby otworzyć wersję SVG].

I jeszcze wykres oczekiwanej długości życia noworodków jako funkcja roku urodzin.

[Rysunek 4. Oczekiwana długość życia w chwili narodzin. Kliknij aby otworzyć wersję SVG].

 

I modyfikacja powyższego wykresu na specjalne życzenie mw

 

 

Metodologia

Powyższe wykresy otrzymano na podstawie danych z bazy http://www.mortality.org/. Wykorzystane pliki z danymi znajdują się w tym katalogu. Skrypt programu R, użyty do wygenerowania tych wykresów znajduje się w tym pliku.

Zgodnie z proponowaną zmianą wieku emerytalnego, przyjęto: do roku 2013 wiek emerytalny dla kobiet to 60 lat, dla mężczyzn 65. Po roku 2013 wiek emerytalny rośnie o miesiąc co cztery miesiące aż do osiągnięcia 67 lat (dla mężczyzn w roku 2020 dla kobiet 2040).

Zaznaczając prognozę kolorem szarym uwzględniano śmiertelność mierzoną w roku 2009. Dlatego prognoza pozostaje na stałym poziomie jeżeli wiek emerytalny się nie zmienia i spada (średnia pozostałego życia i prawdopodobieństwo dożycia) gdy wiek emerytalny rośnie.

Kolorem czerwonym zaznaczono prognozę uwzględniającą śmiertelność mierzoną w roku 2009 plus stały trend liczony jako kontynuacja trendu z ostatnich 10 lat.

Biorąc pod uwagę to, że dane na których liczona jest przeżywalność dotyczą okresu od roku 1958, dlatego w wynikach dotyczących prawdopodobieństwa przeżycia nie widać efektu II wojny światowej.

Informację o metodologi liczenia procentu osób dożywającego danego wieku można znaleźć na stronie bazy danych mortality.org. Tam też znaleźć można dokładne odnośniki do danych źródłowych.

Licząc procent osób dożywających emerytur brałem pod uwage miarę L(x), licząc średnie trwanie życia miarę e(x).

Co rośnie szybciej: średnia długość życia czy wiek emerytlany?

Dziś miała być wizualizacja cen samochodów, ale znalazłem wykres, który dostał wyższy priorytet. Tak więc na samochody trzeba poczekać do środy.

Poniższy wykres pochodzi z tego artykułu, nawiązującego do planowanych zmian wieku emerytalnego.


 

Wydłuża się i wiek emerytalny i oczekiwana długość życia. Zobaczmy co wydłuża się szybciej.

Na pierwszy rzut oka w prezentowanym okresie dla kobiet wiek emerytalny wydłuża się o 7 lat, ale oczekiwana długość życia o 8.8 lat.

Ale zastanawiać może dlaczego na osi OX jest akurat okres od roku 1990 do 2060? Zgodnie z przedstawioną prognozą w okresie od 2013 do 2040 roku oczekiwana długość życia wydłuży się o mniej niż 3.5 roku.

A więc w okresie 2013 – 2040 wiek emerytalny dla kobiet rośnie dwukrotnie szybciej niż oczekiwana długość życia!

Ale tego na tym wykresie nie widać.

Odchodząc na chwilę od problemów z wizualizacją. Niepokoi mnie łatwość argumentowania potrzeby wydłużenia wieku emerytalnego predykcjami rosnącego oczekiwanego czasu życia (czyli pozytywnego zjawiska na które nie mamy dużego wpływu) i odsuwanie ze świadomości ludzi prawdziwego problemu jakim jest ujemny przyrost naturalny, niska innowacyjność i niska produkcyjność (czyli negatywnych zjawisk, które wymagają zdecydowanych rozwiązań, tyle, że nie widać pomysłów na te rozwiązania). To głównie osoby pracujące finansują emerytury więc prawdziwym problemem nie jest rosnąca liczba emerytów ale to, że przyrost produktywności jest niewielki, pracujących rąk ubywa, dzieci rodzą się coraz później a rodzice zamiast cieszyć się rodzicielstwem kombinują się jak zdobyć miejsce w publicznym przedszkolu.

Najnowsze wyniki badań preferencji dzieci

Fundacja SmarterPoland.pl we współpracy z naukowcami z Uniwersytetu Warszawskiego przeprowadziła badania statystyczne dotyczące preferencji tematycznej dzieci.

Badania przeprowadzono na reprezentatywnej grupie dzieci obu płci w wieku przedszkolnym i przed przedszkolnym.

Badania dowiodły, że dzieci wolą, aby czytać im książki dotyczące matematyki i statystyki niż ilustrowane bajki!

Nawet półtoraroczne dzieci statystycznie częściej wybierały ,,Analiza danych z programem R’’ (autor: Przemysław Biecek) niż ,,Emil ze Smalandii’’ (autorka: Astrid Lindgren).

Wnioski: Dzieci są w naturalny sposób zainteresowane algebrą liniową (rzuty różnych obiektów na różne płaszczyzny) i rachunkiem prawdopodobieństwa (,,co się stanie?”). Rozwijajmy w nich te pasje!

[Rys 1. Dzieci wybierają częściej książki o tematyce naukowej, matematycznej lub statystycznej niż ilustrowane bajki.]

Metodologia i Materiały dodatkowe:

Razem z żoną pokazaliśmy dzieciom dwie książki, jedną ilustrowaną z bajkami i drugą ze statystyki. Następnie dziecko było pytanie, która książka bardziej mu się podoba.

W przypadku chłopca należało pomiar powtórzyć trzykrotnie zanim uzyskano oczekiwane wyniki. Dowodzi to:

  1. Dziewczynki rozwijają się szybciej intelektualnie, co jest zgodne z aktualną wiedzą.
  2. Powtarzanie i ćwiczenia są niezmiernie ważne jeżeli chce się uzyskać dobre wyniki.

Cytowanie:

Wyniki tego badania można cytować pod warunkiem podania dokładnej daty ich publikacji (1 IV 2012).