W poprzednim tygodniu odwiedziłem instytut PAN w Białowieży współprowadząc warsztaty z programu R (tak jak przystało na misjonarza R). Blisko instytutu znajduje się cerkiew prawosławna. W cerkwii tej kupić można broszurę przedstawiającą ważniejsze wydarzenia z historii Białowieży i cerkwi. W tej broszurce natknąłem się na tabelę przedstawiającą liczbę chrztów, ślubów i pogrzebów udzielonych w parafii prawosławnej św. Mikołaja Cudotwórcy w Białowieży w latach 1878-2004.

Jeżeli Wy też odczuwacie dreszcz emocji na widok tabelki z liczbami, to zrozumiecie dlaczego zrobiłem to co zrobiłem. Jeżeli nie odczuwacie, to prawdopodobnie reszta wpisu będzie dla Was jedynie przykładem na kolejny wykres punktowy.

Po powrocie do domu dzielnie przepisałem dane z broszurki. Dane można pobrać z pliku csv, link do tego pliku znajduje się tutaj.

Emocje związane z oglądaniem 508 liczb są niczym w porównaniu z emocjami związanymi z oglądaniem wizualizacji danych, która przedstawia jakąś historię. Postanowiłem zrobić taką wizualizację. Kod w programie R potrzebny by ją wykonać znajduje się tutaj. Po kliknięciu na rysunek poniżej otworzy się jego wersja w wyższej rozdzielczości.


 Zastanówmy się chwilę, co też ciekawego widać na tym wykresie.

  • Obserwacja: dane sÄ… niepeÅ‚ne, najdÅ‚uższa przerwa dotyczy lat 1914-1917. Historia: od 28 lipca 1914 do 11 listopada 1918 roku trwaÅ‚a I wojna Å›wiatowa, front dziaÅ‚aÅ„ wojennych przebiegaÅ‚ w pobliżu BiaÅ‚owieży. Okazuje siÄ™ że w okresie I wojny Å›wiatowej prawosÅ‚awna ludność BiaÅ‚owieży byÅ‚a ewakuowana w głąb Rosji. Wywieziono też wiÄ™kszość wyposażenia cerkwi.
  • Obserwacja: liczba zgonów i chrztów spada znaczÄ…co po roku 1941. Historia: W latach 1939-1941 przeprowadzane są masowe  wysiedlenia na SyberiÄ™ ludnoÅ›ci BiaÅ‚owieży.
  • Obserwacja: Po II wojnie Å›wiatowej liczba chrztów sukcesywnie spada z roku na rok. Historia: Liczba mieszkaÅ„ców BiaÅ‚owieży maleje, w tamtym rejonie jest coraz mniej prawosÅ‚awnych.
  • Obserwacja: bilans chrztów do pogrzebów jest najwiÄ™kszy w roku 1978. Po tym roku Å›redniorocznie pogrzeby w parafii odbywajÄ… siÄ™ częściej niż chrzty.
  • Obserwacja: w dziesiÄ™cioleciu 1922 do 1932 liczba porodów jest wysoka, w okolicach 150 na rok. Historia: Okres miÄ™dzywojenny, wzglÄ™dny spokój, sprzyjajÄ…ce warunki do planowania rodziny. W 1924 w BiaÅ‚owieży umieszczono DyrekcjÄ™ OkrÄ™gowÄ… Lasów PaÅ„stwowych, wiÄ™c region nabiera znaczenia.
  • Obserwacja: przed I wojnÄ… Å›wiatowÄ… liczba chrztów z roku na rok wzrasta. W 1891 liczba chrztów przekroczyÅ‚a 100 na rok. Historia: w 1895 wyÅ›wiÄ™cono nowÄ… murowanÄ… cerkiew, która uchodziÅ‚a za najpiÄ™kniejsza w okolicy.
  • Obserwacja: WyjÄ…tkowo duża liczba zgonów zanotowano w latach 1894 i 1900. Historia: jeszcze nie wiem jak to można wyjaÅ›nić.
Btw: Powyżej piszę zgony, choć raczej chodzi o pogrzeby (zgonów było z pewnością więcej). Pozostawiłem jednak oryginalne nazewnictwo ze wspomnianej broszury.

Wczoraj maturzyści pisali egzamin maturalny z matematyki na poziomie podstawowym. Arkusze egzaminacyjne można znaleźć np. tutaj. Poniżej, chciałbym się podzielić kilkoma gorącymi wrażeniami z lektury zadań maturalnych.

Ponieważ interesuje mnie edukacja statystyczna, ponieważ uważam, że znajomość statystyki jest niezbędna, dlatego też byłem ciekawy czy po maturzyście można oczekiwać podstawowej choć znajomości statystyki, losowości, zmienności itp.

Przeglądając listę zadań na poziomie podstawowym okryłem niestety że żadne z nich nie dotyczy statystyki. Jedno jedyne (zadanie 31 za 2 pkt) dotyczy rachunku prawdopodobieństwa. To oczywiście wynika z tego, że statystyki w liceum się nie uczy.

A szkoda.

Bardzo lubię trygonometrię, geometrię, kombinatorykę i zresztą całą matematykę, ale czy nie jest ważniejsze by we współczesnym świecie uczyć w liceum statystyki? Czy nie bardziej przydatne byłoby uczenie zrozumienia co to trend, co to ryzyko, co to wariancja?

4+1+5 = 10

27 kwi
2012

 

Tak jak pisałem w poprzednim wpisie, planuję odbyć 10 rozmów na tematy około-blogowe zanim będę kontynuował pisanie na tym blogu.

Pomysł na 10 rozmów, w chwili gdy przyszedł mi do głowy, wydawał się tak nieracjonalny, że wręcz musiałem go wcielić w życie z czystej ciekawości jak się ten eksperyment zakończy.

Do dzisiaj miałem już przyjemność spotkania i porozmawiania z czterema osobami. W większości (ile to jest większość z 4?) nieznanymi mi wcześniej. Do tego obietnica jednego spotkania po długim weekendzie daje już połowę z zaplanowanych spotkań. Ponieważ eksperyment dla mnie był bardzo nowy, podzielę się kilkoma wrażeniami na gorąco.

Pierwsze cztery spotkania pozwoliły mi na spojrzenie na temat analizy danych z RÓŻNYCH stron. Dużo się pisze o interdyscyplinarnych zespołach i o tym jak pomysły osób o różnych doświadczeniach mogą prowadzić do ciekawych rozwiązań. Brałem kilka razy udział w sesjach burzy mózgów osób i myślałem, że wiem co to interdyscyplinarność. Ale tamte panele były znacznie uboższe w pomysły niż te cztery rozmowy, które miałem przyjemność przeżyć. Wiele pewnie jest ku temu powodów, ale z perspektywy kilku dni uważam, że pomysł na te rozmowy był bardzo trafiony. Cztery rozmowy z czterema osobami pozwalają na znacznie szersze spojrzenie na to co się robi. A co dopiero dziesięć.

Co ciekawe im wiÄ™cej rozmawiam z ludźmi o ich wyobrażeniu czemu sÅ‚użyć powinna statystyka, tym wiÄ™kszÄ… widzÄ™ przepaść pomiÄ™dzy statystykÄ… matematycznÄ… a oczekiwaniami dotyczÄ…cymi analizy danych. To nie jest kwestia przesuniÄ™cia akcentu to sÄ… dwa różne sposoby myÅ›lenia. Tak wiÄ™c rozmowy z nie-’statystykami matematycznymi’ o statystyce bardzo poszerzyÅ‚y mój horyzont widzenia.

Osoby, które zgodziÅ‚y siÄ™ na rozmowÄ™ nie sÄ… ,,przypadkowe”. Nie każdy, czy wrÄ™cz niewiele osób, ma czas, chęć, energiÄ™, widzi sens/ma ochotÄ™ na takÄ… rozmowÄ™. A jeżeli ktoÅ› już widzi sens/ma ochotÄ™ to przeżyÅ‚ najpewniej coÅ› o czym warto usÅ‚yszeć. Bardzo dziÄ™kujÄ™ tej czwórce ( piÄ…ty w drodze), za to że znaleźli czas i chÄ™ci by siÄ™ spotkać i porozmawiać.

 

Rozmowy były najczęściej na bardzo ciekawym i wysokim poziomie abstrakcji. Ale aby zachęcić przyszłych poniżej zbiorę wybiórczo kilka suchych, niskopoziomowych propozycji, które się pojawiły.

  • Poprawić design bloga co zwiÄ™kszy ,,przyswajalność” treÅ›ci.
  • Walczyć z ,,brudnÄ…” statystykÄ… i wciskaniem kitu przez media i polityków.
  • Rzadsze wpisy, np. raz na tydzieÅ„.
  • Mniej o cenach mieszkaÅ„/samochodów, wiÄ™cej o tematach spoÅ‚ecznych.
  • Przetestować możliwoÅ›ci interaktywnej grafiki w opisie interesujÄ…cego zjawiska.
  • Poprawić ,dziennikarski warsztat’ blogera, stronÄ™ jÄ™zykowÄ…, streszczenie do wpisów, kontrolowana dÅ‚ugość wpisów.
  • WiÄ™cej opinii, mniej suchych wyników. DotÄ…d pozostawiaÅ‚em interpretacjÄ™ wyników czytelnikowi ale może warto jakÄ…Å› zasugerować.
  • Znaleźć kogoÅ› na miejsce ,,pierwszego czytelnika”, który skomentuje wpis zanim on siÄ™ publicznie ukaże.
  • Wykorzystanie fundacji w celu pozyskania drogÄ… oficjalnÄ… różnych danych, użytecznych ale nie dostÄ™pnych nigdzie publicznie.
  • Zatrudnienia kilku studentów do przejrzenia mediów elektronicznych i pozbierania dziesiÄ…tek przykÅ‚adów zÅ‚ych grafik.
  • PoÅ›wiÄ™cenie wiÄ™kszej iloÅ›ci czasu jednemu zjawisku, np. edukacji na poziomie gimnazjum.

Dziękuję też za komentarze pod poprzednim wpisem, celowo na nie nie odpowiadam, mając nadzieję raczej na znacznie bogatszą w środki przekazu rozmowę w świecie rzeczywistym.

 

I co dalej?

11 kwi
2012

Dzisiejszy wpis jest ostatnim w kwietniu. Przed nami dłuższa przerwa spowodowana moim wyjazdem. Umieszczę więc poniżej kilka zdań podsumowania z dotychczasowej działalności i zwrócę się do Was wszystkich z apelem o pomoc. Niecierpliwym sugeruję czytanie od ostatniego akapitu.

Najpierw kilka słów wprowadzenia, później garść statystyk i wprowadzenie do apelu o pomoc.

Pierwszy wpis na tym blogu pochodzi z 15 września, mamy więc na karku 7 miesięcy blogowania. Ponieważ siódma miesięcznica zbiega się w czasie z wyjazdem w ramach którego nie będę miał ani czasu na opracowanie kolejnych ani dostępu do internetu, czas na małe podsumowanie.
Ten wpis jest 110. z kolei. Wpisy byÅ‚y bardzo różne.To zróżnicowanie byÅ‚o mi potrzebne aby sprawdzić jak mi siÄ™ pisze na różne tematy. JakieÅ› zainteresowanie analizÄ… i wizualizacjÄ… danych jest, Å›wiadczy o tym wiele komentarzy i jeszcze wiÄ™cej osób subskrybujÄ…cych kanaÅ‚ RSS i sporo osób trafiajÄ…cych i na stronÄ™ www a nawet umieszczajÄ…cych tu i ówdzie linki do niej (za co dziÄ™kujÄ™). Pierwotnym celem byÅ‚o opracowanie platformy dla ,,crowd data mining” danych dotyczÄ…cych Polski. Obecnie interakcja z zainteresowanymi osobami przebiega na poziomie komentarzy do wpisów lub emaili.
Wpisy pojawiały się na początku nieregularnie. Ostatnimi czasy pojawiają się regularnie trzy razy w tygodniu w poniedziałki, środy i piątki, ale na dłuższą metę nie jest możliwe przygotowywanie tak często wpisów mając też inne obowiązki.

Plan na najbliższą przyszłość to znalezienie formy w której będzie mi się dobrze pisało, w prace fundacji uda się zaangażować więcej osób, będzie możliwa dyskusja nt. interesujących danych i wyników ich analiz przy zachowaniu <szumnie> społecznej użyteczności </szumnie>.

I tutaj pojawia się apel do Was (i wiernych i przypadkowych czytelników). Jako zwolennik nieustannego sondowania gruntu, chciałbym, zanim fundacja wybierze jakiś kierunek wpierw rozszerzyć i przedyskutować bazę pomysłów nt. planu działania. Na stole są bardzo różne pomysły np. materiały dot. wizualizacji danych, kolumna w tygodniku pokazująca fragmenty rzeczywistości widoczne w danych, współpraca z resortem edukacji/nauki w celu opracowania i przedstawiania serii wyników dotyczących stanu polskiej edukacji/nauki, portal śledzący rzetelność informacji prezentowanych przez media i wiele innych pomysłów. Chciałbym tę listę znacząco poszerzyć zanim coś z niej wybierzemy. Chętnie też usłyszę komentarze nt. czytelności/ciekawości dotychczasowych wpisów.

Jak?

Mój plan jest nastÄ™pujÄ…cy: jeżeli czytaÅ‚eÅ›/czytaÅ‚aÅ› wpisy z tego bloga i masz na ich temat lub zbliżony temat ciekawe wrażenia/opinie podziel siÄ™ nimi ze mnÄ…. WyÅ›lij mi te krótki, dwu- trzy- zdaniowy opis pomysłów/komentarzy mailem i porozmawiajmy o nich podczas lunchu (fundacja stawia). Zapraszam np. do pizzerii ,,A modo mio” przy ulicy Grójeckiej w Warszawie na spokojnÄ… rozmowÄ™ przy dobrym jedzeniu. PlanujÄ™ zebrać pomysÅ‚y od przynajmniej 10 osób. Każdy z Was (bez wzglÄ™du na wiek, wyksztaÅ‚cenie, kolor skóry czy religiÄ™) jeżeli tylko chce może siÄ™ przyczynić do prac fundacji przez podzielenie siÄ™ pomysÅ‚em na jej rozwój.
Jak już zbiorę te pomysły podzielę się nimi na blogu i będziemy kontynuować.
Na lunch proszę się umawiać emailowo: przemyslaw.biecek na serwerze gmail.com, od kilku dni już nie mam dostępu do internetu ale z pewnością odpowiem po powrocie. Jeżeli macie pomysły/sugestie/opinie ale nie ma Was w Warszawie to podeślijcie je emailem. Najbardziej liczę na bezpośrednie rozmowy, innowacyjne pomysły, interesujące komentarze.

Ostatnio, w tym wpisie, przedstawiaÅ‚em wizualizacje cen aut używanych z segmentu C. ObiecaÅ‚em też przedstawienie tych wizualizacji w postaci prezentacji. ZÅ‚ożyÅ‚em ta obietnicÄ™ celowo, by mieć pretekst do przetestowania programu ze strony prezi.com, reklamowanego jako ,,zooming presentation editor”. DotÄ…d przygotowywaÅ‚em prezentacje w Beamerze i byÅ‚em z nich zadowolony, ale warto testować nowe rozwiÄ…zania.

Prezentacje wykonane w programie prezi wyglądają jak seria zbliżeń jednego dużego rysunku, przez co ma się wrażenie ciągłości historii i łatwiej zbudować w głowie mapę prezentacji. Edytor prezi jest dosyć ograniczony (we flashu można zrobić więcej), ale łatwo i intuicyjnie się go używa, wyniki są też dosyć przyjemne dla oka. Oczywiście aby wrażenie ciągłości i spójności pojawiło się w głowie odbiorcy, trzeba poświęcić trochę czasu na projektowanie prezentacji, więcej niż w przypadku zwykłych slajdów.

PrezentacjÄ™ z dodanym gÅ‚osem umieszczam poniżej (nagrana z ekranu za pomocÄ… programu Camtasia, wersja 30 dniowa). ZależaÅ‚o mi bardziej na zaprezentowaniu efektu zbliżeÅ„ niż na budowaniu emocjonujÄ…cej historii, wiÄ™c proszÄ™ wybaczyć usterki w audio i brak porywajÄ…cej narracji. W każdym razie moje wrażenia po wykonaniu pierwszej prezentacji z użyciem ,,edytora zbliżeniowego” sÄ… bardziej niż pozytywne.

Może by w ten sposób przygotować materiały wideo do kursu ze statystyki?

(Jeżeli poniżej nie otwiera się materiał wideo, to proszę kliknąć na ten link)
 

 

W poprzednim tygodniu (w tym wpisie) pisałem o tym jak modelować można cenę aut używanych, na przykładzie aut z segmentu C.

Dziś pokażę trzy wizualizacje tego zbioru danych, mam nadzieję, że interesujące.

Zobaczymy więc jak zmieniają się ceny aut w zależności od wieku aut, jak wygląda liczba oferowanych aut różnych marek i również jak wygląda wyposażenie aut różnych marek.

Zacznijmy od ceny.

[Rysunek 1. Rozkład cen ofertowych aut używanych w rozbiciu na markę i wiek auta. Czarna kropka odpowiada medianie, pudełka dolnemu i górnemu kwartylowi. Dla zwiększenia czytelności oś OY przedstawiono w skali logarytmicznej. ]

Spójrzmy teraz na dostępność ofert dla różnych marek. Dodatkowo przedstawimy liczbę oferowanych aut w danym roku w podziale na typy nadwozia.

[Rysunek 2. Liczba ofert sprzedaży używanego auta w rozbiciu na typ nadwozia, wiek auta i markę.  Dla niektórych modeli widoczna jest duża podaż +-5-letnich samochodów. Prawdopodobnie kończą się okresy gwarancyjne, auto się amortyzuje i takie auta są sprzedawane przez firmy leasingujące.]

I jeszcze rzut oka na wyposażenie.

[Rysunek 3. Na osi OY przedstawiono procent używanych aut oferowanych do sprzedaży, posiadających określony element wyposażenia. Najwięcej aut serwisowane w ASO stanowią auta mające 4 lata. Ciekawe trendy obserwuje się dla przyciemnianych szyb. Nowsze Astry, C4 i Cee'dy mają je coraz częściej, podczas gdy dla Audi A4 mamy odwrotny trend, przynajmniej  w ostatnich latach. Coraz więcej aut jest wyposażonych w takie elementy jak czujnik parkowania czy ESP (hmm, dziwny jest ten trend z ESP w Ceed'ach)]

 

Btw: wszystkie powyższe wykresy zostały wykonane funkcją xyplot() lub bwplot() w R z użyciem pakietu lattice.

Motywacja

Dziś pokażę kilka wykresów, które mają się zmierzyć z pytaniem o szansę na dożycie wieku emerytalnego, średnią liczbę lat na emeryturze i średnią długość życia. Wszystko to w odniesieniu do planowanej reformy emerytalnej.

Zanim jednak zacznę temat emerytur, wytłumaczę się, dlaczego dziś nie będzie obiecanych w piątek wizualizacji cen aut. Otóż okazało się, że poniedziałkowy wpis cieszył się większą popularnością niż sumarycznie wszystkie wpisy w poprzednim miesiącu. Cóż to może oznaczać? Albo ktoś próbował ataku typu DDoS, albo też wiele osób szuka informacji o tym jaki wpływ na ich życie będzie miała reforma emerytalna. Nie jestem zwolennikiem kierowania się rankingami popularności, ale dla emerytury warto zrobić wyjątek. Wizualizacja cen aut pojawi się w piątek lub w przyszłym tygodniu a dzisiaj jeszcze raz przyjrzymy się tematowi emerytur (piszę jeszcze raz, ponieważ już pisałem w tych dwóch wpisach: tutaj i tutaj).

 

Wyniki

Dosyć szybko udało mi się ustalić listę interesujących mnie pytań dotyczących emerytur. Oto ona: Jaka jest szansa na dożycie do wieku emerytalnego. Jeżeli już dożyję, to jaka jest średnia liczba lat przeżytych na emeryturze. Jak wiek emerytalny ma się do średniej długości życia.

Mając pytania zacząłem szukać danych. Straciłem całą wczorajszą noc na próbach wyciągnięcia potrzebnych informacji z raportów GUS. Ale zarówno przeklejanie liczb z plików pdf jak i przeglądanie zakładek plików excelowych okazało się mało owocne. Porzuciłem więc to źródło danych na rzecz bazy danych http://www.mortality.org/. Na tej stronie są zebrane informacje o tablicach trwania życia i nie tylko dla różnych krajów, w tym Polski. Dla Polski dane są opracowane na podstawie rożnych raportów tak GUS jak i innych źródeł. Te dane różnią się trochę od danych prezentowanych na stronach GUS w roku 2011, ale nie są to duże różnice a dostęp jest nieporównanie łatwiejszy. Główna wada bazy danych mortality.org to dostępność danych tylko do roku 2009 (GUS ma dostęp do przynajmniej dwóch kolejnych lat plus bardziej zaawansowane prognozy dotyczące przyszłości, ale co z tego skoro nie można się do tych prognoz dostać).

 

Poniżej przedstawię kilka wyników. Zanim to jednak zrobię muszę jedną rzecz bardzo wyraźnie podkreślić. Wszystko co jest narysowane kolorem czarnym dotyczy liczb z bazy danych mortality.org. Kolorem szarym zaznaczyłem prognozę zakładającą, że umieralność w przyszłości będzie taka sama jak w roku 2009. Ponieważ jednak dominuje obecnie opinia, że będziemy żyć dłużej, więc dodałem też prognozę uwzględniającą wydłużający się czas trwania życia. Zrobienie takiej prognozy na najbliższych kilka jest trudne (zależy od płci, wieku, roku urodzenia i masy innych czynników). Prognozy na przyszłe trzydzieści lat mogą bardzo różnić się od rzeczywistości, należy je traktować jedynie jako ilustrację. Nie mogąc dobrać się do prognoz GUS pozostało mi więc zrobić własne prognozy. W większości przypadków opierają się one na prymitywnym założeniu, że dana cecha będzie rosła w podobnym tempie jak przez ostatnie 10 lat. Jest to śliskie założenie, szczególnie w perspektywie +30 lat, dlatego należy patrzeć na te wyniki z rezerwą.

 

Zacznijmy od wykresu przedstawiającego procent osób dożywających emerytury jako funkcję roku w którym uzyska się uprawnienia emerytalne.

[Rysunek 1. Frakcja osób dożywających emerytury jako funkcja wieku uzyskania uprawnień emerytalnych (bez żadnych ulg). Wyniki osobno dla kobiet i mężczyzn. Po roku 2013 procent dożywających spada ponieważ wiek emerytalny rośnie. Czerwona krzywa odpowiada założeniu, że z uwagi na rosnącą długość życia procent osób dożywających wieku emerytalnego będzie rosło o 0.15%/rok dla kobiet i 0.25%/rok dla mężczyzn (tak jak średnio w ostatnich 10 latach). Kliknij aby otworzyć wersję SVG].

Możemy teraz tę samą informację przedstawić jako funkcję od roku urodzenia.

[Rysunek 2. Frakcja osób dożywających emerytury jako funkcja roku urodzenia. Wyniki osobno dla kobiet i mężczyzn. Warto zauważyć, że z uwagi na zmieniający się wiek emerytalny po roku 2013 osoby starsze o 3 roczniki otrzymają emeryturę 4 lata później. Czerwona krzywa odpowiada założeniu, że z uwagi na rosnącą długość życia procent osób dożywających wieku emerytalnego będzie rosło o 0.15% dla kobiet i 0.25% dla mężczyzn (tak jak średnio w ostatnich 10 latach). Brak efektu II wojny światowej bierze się ze dostępności jedynie danych od roku 1958 (patrz opis metodologii poniżej). Kliknij aby otworzyć wersję SVG].

Zakładając, że już dożyliśmy emerytury, zobaczmy ile średnio lat będziemy z niej korzystać.

[Rysunek 3. Oczekiwane dalsze trwanie życia w chwili otrzymania uprawnień emerytalnych (zakładając brak ulg). Wyniki osobno dla kobiet i mężczyzn. Po roku 2013 średnia spada ponieważ wiek emerytalny rośnie. Czerwona krzywa odpowiada założeniu, że długość życia osób dożywających wieku emerytalnego będzie rosła o 0.15/rok dla kobiet i 0.125/rok dla mężczyzn (tak jak średnio w ostatnich 10 latach). Kliknij aby otworzyć wersję SVG].

I jeszcze wykres oczekiwanej długości życia noworodków jako funkcja roku urodzin.

[Rysunek 4. Oczekiwana długość życia w chwili narodzin. Kliknij aby otworzyć wersję SVG].

 

I modyfikacja powyższego wykresu na specjalne życzenie mw

 

 

Metodologia

Powyższe wykresy otrzymano na podstawie danych z bazy http://www.mortality.org/. Wykorzystane pliki z danymi znajdują się w tym katalogu. Skrypt programu R, użyty do wygenerowania tych wykresów znajduje się w tym pliku.

Zgodnie z proponowaną zmianą wieku emerytalnego, przyjęto: do roku 2013 wiek emerytalny dla kobiet to 60 lat, dla mężczyzn 65. Po roku 2013 wiek emerytalny rośnie o miesiąc co cztery miesiące aż do osiągnięcia 67 lat (dla mężczyzn w roku 2020 dla kobiet 2040).

Zaznaczając prognozę kolorem szarym uwzględniano śmiertelność mierzoną w roku 2009. Dlatego prognoza pozostaje na stałym poziomie jeżeli wiek emerytalny się nie zmienia i spada (średnia pozostałego życia i prawdopodobieństwo dożycia) gdy wiek emerytalny rośnie.

Kolorem czerwonym zaznaczono prognozę uwzględniającą śmiertelność mierzoną w roku 2009 plus stały trend liczony jako kontynuacja trendu z ostatnich 10 lat.

Biorąc pod uwagę to, że dane na których liczona jest przeżywalność dotyczą okresu od roku 1958, dlatego w wynikach dotyczących prawdopodobieństwa przeżycia nie widać efektu II wojny światowej.

Informację o metodologi liczenia procentu osób dożywającego danego wieku można znaleźć na stronie bazy danych mortality.org. Tam też znaleźć można dokładne odnośniki do danych źródłowych.

Licząc procent osób dożywających emerytur brałem pod uwage miarę L(x), licząc średnie trwanie życia miarę e(x).

Dziś miała być wizualizacja cen samochodów, ale znalazłem wykres, który dostał wyższy priorytet. Tak więc na samochody trzeba poczekać do środy.

Poniższy wykres pochodzi z tego artykułu, nawiązującego do planowanych zmian wieku emerytalnego.


 

Wydłuża się i wiek emerytalny i oczekiwana długość życia. Zobaczmy co wydłuża się szybciej.

Na pierwszy rzut oka w prezentowanym okresie dla kobiet wiek emerytalny wydłuża się o 7 lat, ale oczekiwana długość życia o 8.8 lat.

Ale zastanawiać może dlaczego na osi OX jest akurat okres od roku 1990 do 2060? Zgodnie z przedstawioną prognozą w okresie od 2013 do 2040 roku oczekiwana długość życia wydłuży się o mniej niż 3.5 roku.

A wiÄ™c w okresie 2013 – 2040 wiek emerytalny dla kobiet roÅ›nie dwukrotnie szybciej niż oczekiwana dÅ‚ugość życia!

Ale tego na tym wykresie nie widać.

Odchodząc na chwilę od problemów z wizualizacją. Niepokoi mnie łatwość argumentowania potrzeby wydłużenia wieku emerytalnego predykcjami rosnącego oczekiwanego czasu życia (czyli pozytywnego zjawiska na które nie mamy dużego wpływu) i odsuwanie ze świadomości ludzi prawdziwego problemu jakim jest ujemny przyrost naturalny, niska innowacyjność i niska produkcyjność (czyli negatywnych zjawisk, które wymagają zdecydowanych rozwiązań, tyle, że nie widać pomysłów na te rozwiązania). To głównie osoby pracujące finansują emerytury więc prawdziwym problemem nie jest rosnąca liczba emerytów ale to, że przyrost produktywności jest niewielki, pracujących rąk ubywa, dzieci rodzą się coraz później a rodzice zamiast cieszyć się rodzicielstwem kombinują się jak zdobyć miejsce w publicznym przedszkolu.

Fundacja SmarterPoland.pl we współpracy z naukowcami z Uniwersytetu Warszawskiego przeprowadziła badania statystyczne dotyczące preferencji tematycznej dzieci.

Badania przeprowadzono na reprezentatywnej grupie dzieci obu płci w wieku przedszkolnym i przed przedszkolnym.

Badania dowiodły, że dzieci wolą, aby czytać im książki dotyczące matematyki i statystyki niż ilustrowane bajki!

Nawet półtoraroczne dzieci statystycznie częściej wybierały ,,Analiza danych z programem R’’ (autor: Przemysław Biecek) niż ,,Emil ze Smalandii’’ (autorka: Astrid Lindgren).

Wnioski: Dzieci sÄ… w naturalny sposób zainteresowane algebrÄ… liniowÄ… (rzuty różnych obiektów na różne pÅ‚aszczyzny) i rachunkiem prawdopodobieÅ„stwa (,,co siÄ™ stanie?”). Rozwijajmy w nich te pasje!

[Rys 1. Dzieci wybierają częściej książki o tematyce naukowej, matematycznej lub statystycznej niż ilustrowane bajki.]

Metodologia i Materiały dodatkowe:

Razem z żoną pokazaliśmy dzieciom dwie książki, jedną ilustrowaną z bajkami i drugą ze statystyki. Następnie dziecko było pytanie, która książka bardziej mu się podoba.

W przypadku chłopca należało pomiar powtórzyć trzykrotnie zanim uzyskano oczekiwane wyniki. Dowodzi to:

  1. Dziewczynki rozwijajÄ… siÄ™ szybciej intelektualnie, co jest zgodne z aktualnÄ… wiedzÄ….
  2. Powtarzanie i ćwiczenia są niezmiernie ważne jeżeli chce się uzyskać dobre wyniki.

Cytowanie:

Wyniki tego badania można cytować pod warunkiem podania dokładnej daty ich publikacji (1 IV 2012).

 

W poprzedni piątek, w tym wpisie, opisałem trzecią wersję zbioru danych o cenach aut używanych.  W trzech najbliższych wpisach przyjrzymy się bliżej temu zbiorowi danych. Wpisy będą znacznie bardziej technicznie niż poprzednie, ale mam nadzieję że ciekawie dla osób zaczynających przygodę z modelowaniem statystycznym.

Dzisiaj przedstawię kilka umiarkowanie złożonych podejść do modelowania ceny samochodu z użyciem modeli liniowych. Będzie kod w R i trochę narzekań na niezrównoważony zbiór danych. Kolejny wpis przedstawiać będzie przykładowe wizualizacje zbioru danych o cenach aut. A w trzecim wpisie przedstawię krótką prezentację wykonaną z użyciem narzędzia dostępnego online na stronie prezi.com. Narzędzie to jest bezpłatne w wersji średniej dla studentów i nauczycieli akademickich. Ciekawe jestem jak wypadnie prezentacja w nim wykonana, czy lepiej niż w Beamerze?

Pomimo iż większość (żmudnej) pracy związanej z wyborem modelu nie zostanie przedstawiona, i tak będzie dzisiaj bardzo technicznie.

Zaznaczę jeszcze, że modelowana jest cena używanego auta a nie zmiana ceny czy spadek wartości. Modelując cenę mogę dodać efekt wieku auta i mówić, że auta o rok starszy są o x PLN tańsze, ale to są inne auta! W innej wersji i innym wyposażeniem. Efekt wyposażenia można jeszcze usunąć ale efektu związanego z wersja nie. Można porównywać średnią cenę Passata z roku 2006 z ceną Passata z roku 2005. Ale z tego porównania nie można wyciągać wniosków co do utraty wartości tego auta. Są to różne wersje, z różnymi problemami estetyki wersji B5 czy problemów wieku młodzieńczego wersji B6. Modelowanie utraty wartości jest tematem ciekawym i wrócimy do tego gdy będziemy mieli ceny aut zebranych rok wcześniej i rok później.

Wybór podzbioru danych – filtrowanie

Zbiór danych o cenach aut z marca 2012 ma ponad 220 tys wierszy. Kusząca jest możliwość wykorzystania wszystkich tych wierszy do modelowania. Kuszące rzeczy często jednak są złe.

Zgodnie ze zÅ‚otÄ… zasadÄ… ,,garbage in, garbage out” jeżeli do modelu wÅ‚ożymy Å›mieciowe dane, otrzymamy Å›mieciowe wyniki. Ponieważ bÄ™dziemy wykorzystywać dosyć wrażliwe metody estymacji, w pierwszym kroku wyczyÅ›cimy zbiór danych tak by zawieraÅ‚ jak najmniej kÅ‚opotliwych zmiennych.

Nawet jeżeli czyszczenie danych jest dosyć żmudne, mało widowiskowe i potrafi zabrać więcej czasu niż cała reszta wizualizacji i modelowania to i tak jest to jeden z ważniejszych kroków. Co z tego, że użyjemy super wyrafinowanej metody estymacji skoro w danych mamy śmieci?

W tym przypadku proces czyszczenia danych polegał na wybraniu aut, które:

  • należą do segmentu C, jest to najpopularniejszy segment aut. WybieraÅ‚em z tego segmentu modele dla których znalazÅ‚em przynajmniej 100 ofert sprzedaży, co mam nadzieje wystarczy do rozsÄ…dnej estymacji. Wybrane modele to: Golf, Astra, A3, C4, Focus, Civic, i30, Cee’d, 308, Octavia.
  • majÄ… mniej niż 12 lat, czyli rok produkcji to przynajmniej rok 2000,
  • ma nadwozie Kombi lub Hatchback, pozostaÅ‚e wersje nadwozia sÄ… znacznie mniej popularne,
  • jest zarejestrowane w Polsce,
  • pochodzi z jednego z krajów: Polska, Wlochy, Czechy, Francja, Holandia, Belgia, Niemcy,
  • rodzaj paliwa to diesel, benzyna lub benzyna+LPG, inne bardziej egzotyczne źródÅ‚a energii pomijam,
  • pojemność silnika jest z przedziaÅ‚u 1150 – 2200 cm3,
  • skrzynia biegów jest manualna,
  • auto nie jest uszkodzone a cena jest cenÄ… brutto.

Po zastosowaniu tych filtrów pozostaje jedynie 13 419 aut, czyli mniej niż 10%. Wybrana grupa jest jednak bardziej jednorodna, mniej jesteÅ›my wiÄ™c narażeni na ,,niespodziewane” problemy zwiÄ…zane z brakiem zrównoważenia danych. Np. nie musimy siÄ™ przejmować artefaktem zwiÄ…zanym z tym, że najstarsze golfy majÄ… po kilkadziesiÄ…t lat, a modele i30 sÄ… co najwyżej kilkuletnie.

#
# Filtrujemy dane. Pozostawiamy tylko auta pasujące do powyższego opisu.
# W wyniku otrzymujemy trochÄ™ ponad 13 tys aut
#
load("cenyAutIII2012.Rdata")
modele <- c("Golf", "Astra", "A3", "C4", "Focus", "Civic", "i30", "Cee'd", "308", "Octavia") 
segmentC <- cenyAutIII2012[(cenyAutIII2012$Model %in% modele) & 
                 (cenyAutIII2012$Nadwozie %in% c("Kombi", "Hatchback")) & 
                 (cenyAutIII2012$Kraj.aktualnej.rejestracji == "Polska" | cenyAutIII2012$Kraj.aktualnej.rejestracji == "") & 
                 (cenyAutIII2012$Kraj.pochodzenia %in% c("Wlochy", "Czechy", "Francja", "Holandia", "Belgia", "Polska", "Niemcy", "")) & 
                 (cenyAutIII2012$Rodzaj.paliwa %in% c("benzyna+LPG", "benzyna", "olej napedowy (diesel)")) &
                 (cenyAutIII2012$Pojemnosc.skokowa > 1150 & cenyAutIII2012$Pojemnosc.skokowa < 2201) &
                 cenyAutIII2012$Rok.produkcji > 2000 & 
                 cenyAutIII2012$Skrzynia.biegow == "manualna" & 
                 cenyAutIII2012$Brutto.netto == "brutto" & (cenyAutIII2012$Liczba.drzwi %in% c("2/3", "4/5")) & cenyAutIII2012$Pojazd.uszkodzony == "",]
segmentC <- segmentC[!is.na(segmentC$Cena),]

Kodowanie zmiennych i wstępne transformacje

Zanim zaczniemy cokolwiek modelować, trzeba zastanowić się jak zakodować zmienne w modelu. Po serii prób wybrałem następujące transformacje przygotowujące dane

  • zamiast roku produkcji analizowany bÄ™dzie wiek auta, czyli 2012 – rok produkcji. UÅ‚atwi to interpretacjÄ™ ceny efektu wieku auta (porównywaÅ‚em też wyniki z wiekiem traktowanym jako zmienna jakoÅ›ciowa, ale nie byÅ‚y lepsze, wiÄ™c wiek pozostaÅ‚ zmiennÄ… iloÅ›ciowÄ…)
  • pojemność silnika zostaÅ‚a zamieniona na zmiennÄ… jakoÅ›ciowÄ… z poziomami co 100cm3.
  • z adresu auta wyciÄ…gnÄ…Å‚em informacjÄ™ o kodzie pocztowym, odpowiednio pierwszej cyfrze kodu pocztowego, dwóch pierwszych cyfrach i wszystkich piÄ™ciu cyfrach.
  • z kolumn wyposażenie dodatkowe i informacje dodatkowe wyciÄ…gnÄ…Å‚em elementy wyposażenia pojawiajÄ…ce siÄ™ w przynajmniej 100 ofertach. DodaÅ‚em kolumny kodujÄ…ce binarnie czy auto posiada: niezalezne ogrzewanie, instalacja gazowa, szyberdach, bagażnik na dach, blokada skrzyni biegow, skorzana tapicerka, ksenony, EDS, system nawigacji, hak, podgrzewane fotele, pod. przednia szyba, przyciemniane szyby, czujnik deszczu, czujnik parkowania, tempomat, kierownica wielofunkcyjna, welurowa tapicerka, ASR, garażowany, ESP, alufelgi, autoalarm, lwiatla przeciwmglowe, pierwszy wlasciciel, serwisowany w ASO, bezwypadkowy, komputer, el. lusterka, radio / CD, immobiliser, el. szyby, poduszka powietrzna, klimatyzacja, centralny zamek, ABS, wspomaganie kierownicy.
  • cenÄ™ wyrażonÄ… w różnych walutach zamieniÅ‚em na cenÄ™ w PLN.
  • zmiennÄ… do analizy bÄ™dzie logarytm dwójkowy ceny. Analiza ceny z użyciem modeli gaussowskich nie ma sensu, majÄ…c do wyboru transformacjÄ™ ceny albo rozważanie bardziej zÅ‚ożonych klas modeli wybraÅ‚em transformacjÄ™. Z rodziny transformacji Boxa Coxa najlepiej wypadaÅ‚a transformacja y^0.2, ale nie różniÅ‚a siÄ™ ona znaczÄ…co od logarytmu wiÄ™c wybraÅ‚em logarytm bo Å‚atwiej go interpretować.
#
# Dodajemy do zbioru danych zmienne po transformacji.
#
# Zamieniamy rok produkcji na wiek
segmentC$wiek <- 2012 - segmentC$Rok.produkcji
 
# Zamieniamy ilościową zmienną pojemność na zmienną jakościową
segmentC$pojemnosc <- factor(((segmentC$Pojemnosc.skokowa - 50) %/% 100) * 100 + 50)            
 
# konstruujemy zmiennÄ… opisujÄ…ca lokalizacjÄ™ geograficznÄ…, 
# odpowiadającą pierwszej cyfrze kodu (mniej więcej województwo), 
# dwóm pierwszym cyfrom kodu pocztowego lub wszystkim pięciu cyfrom kodu pocztowego.
segmentC$kodPocztowy5 <- factor(substr(segmentC$Adres, 1,6))
segmentC$kodPocztowy1 <- factor(substr(segmentC$Adres, 1,1))
segmentC$kodPocztowy2 <- factor(substr(segmentC$Adres, 1,2))
 
# usuwamy zbędne puste poziomy
segmentC$Model = factor(segmentC$Model)
segmentC$Nadwozie = factor(segmentC$Nadwozie)
segmentC$Rodzaj.paliwa = factor(segmentC$Rodzaj.paliwa)
 
# Konstruujemy macierz cech dodatkowych, najpierw identyfikujemy listę nazw wyposażenia dodatkowego 
# a następnie budujemy odpowiednią ramkę danych
tmp <- paste(as.character(segmentC$Wyposazenie.dodatkowe),as.character(segmentC$Informacje.dodatkowe), sep=", ")
tmps <- strsplit(tmp, split=", *")
cechy <- names(sort(table(factor(unlist(tmps))))[10:46])
ncechy <- sapply(cechy, function(x) grepl(x, tmp))
 
# Składamy nowe zmienne w ramkę danych segmentC2
segmentC2 <- data.frame(segmentC[,c("Cena.w.PLN", "Model", "Nadwozie", "Pojemnosc.skokowa", "Rodzaj.paliwa", 
  "wiek", "kodPocztowy2", "kodPocztowy1")], ncechy)

 

Model 1. Najistotniejsze czynniki

Korzystając z tzw. wiedzy eksperckiej i po kilkunastu próbach eksperymentalnych jako trzy najważniejsze czynniki wpływające na cenę samochodu wybrałem: model samochodu, nadwozie i wiek auta. Jeżeli w modelu uwzględni się wiek to okazuje się, że deklarowany przebieg w km ma minimalne znaczenie, więc na tym etapie został pominięty.

Poniżej przedstawiam wyniki estymacji współczynników modelu. W kolejnym wpisie, gdy pokażemy wizualizacje naszych danych łatwiej będzie uwierzyć, że otrzymany model jest sensowny. Btw: poniższy model tłumaczy 85% zmienności ceny auta, całkiem dużo jak na trzy zmienne.

Co ciekawego można zauważyć? Audi A3 jest Å›rednio najdroższe bez wzglÄ™du na to czy w wersji Kombi czy nie (droższe przynajmniej o 1/4), czy jest to efekt samej marki czy wyposażenia okaże siÄ™ z później. Dla różnych modeli auta z nadwoziem kombi sÄ… Å›rednio droższe (Octavia, Cee’d) lub taÅ„sze (Civic, Focus) od hatchbacków. W salonach wersja kombi jest zawsze droższa (podobnie jak diesel) ale jak siÄ™ okazuje dla Forda lub Civica na rynku może być wiÄ™cej aut w nadwoziu kombi ze sÅ‚abszym wyposażeniem lub wiÄ™kszym przebiegiem lub sprowadzonych lub z innÄ… cechÄ… która odbija siÄ™ na cenie.

#
# Pomocnicza funkcja, przedstawiająca tabelę efektów w bardziej zwartej i czytelnej postaci. Przekształcamy efekty liczone na logarytmach tak by przedstawiały ,,efekt multiplikatywny'' czyli porównanie procentowej ceny aut.
#
opisz <- function(x, filtr="") {
 tt <- data.frame(round(2^x[grepl(filtr, rownames(x)),1,drop=F]*1000)/10, 
       signif = cut(x[grepl(filtr, rownames(x)),4,drop=F], c(-1,0.001,0.01,1), c("**","*","")))
 tt[order(tt[,1]),]
}
 
#
# Wyniki analizy wariancji
# Jak widzimy największy wpływ na cenę auta ma wiek, w drugiej kolejności model auta i typ nadwozia
#
> anova(model <- lm(log(Cena.w.PLN,2)~Model:Nadwozie+wiek, segmentC2))
Analysis of Variance Table
 
Response: log(Cena.w.PLN, 2)
                  Df Sum Sq Mean Sq  F value    Pr(>F)    
wiek               1 5873.4  5873.4 67373.01 < 2.2e-16 ***
Model:Nadwozie    18  706.9    39.3   450.47 < 2.2e-16 ***
Residuals      13399 1168.1     0.1                       
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
#
# Referencyjnym poziomem jest Skoda Octavia Kombi
# Wartość w kolumnie ,Estimate' odpowiada mniej więcej temu ile procent średniej ceny 
# Skody Octavii Kombi  stanowi średnia cena danego auta w określonej wersji nadwozia. 
# Czyli np. cee'd kombi jest o 15% tańszy od octavii kombi (przyjmując tę samą utratę 
# wartości z uwagi na wiek), za to Audi A3 kombi jest średnio o 35% droższe niż Octavia Kombi.
#
# Wartość przy zmiennej wiek oznacza że auta średnio tracą około 14% wartości na rok.
# 
> opisz(summary(model)$coefficients)
                                Estimate signif
ModelCivic:NadwozieKombi            69.7       
ModelFocus:NadwozieKombi            70.2     **
ModelC4:NadwozieHatchback           72.9     **
Modeli30:NadwozieHatchback          73.9     **
ModelCee'd:NadwozieHatchback        74.5     **
ModelAstra:NadwozieKombi            75.3     **
ModelFocus:NadwozieHatchback        75.4     **
Modeli30:NadwozieKombi              78.0     **
ModelAstra:NadwozieHatchback        78.5     **
Model308:NadwozieKombi              79.6     **
Model308:NadwozieHatchback          80.6     **
ModelCee'd:NadwozieKombi            86.3     **
ModelOctavia:NadwozieHatchback      93.4     **
ModelGolf:NadwozieKombi             93.6     **
ModelCivic:NadwozieHatchback        96.0     **
ModelGolf:NadwozieHatchback         98.8       
ModelA3:NadwozieHatchback          124.5     **
ModelA3:NadwozieKombi              135.4     **
wiek                                86.0     **

Model 2. Wyposażenie dodatkowe

Opisując transformacje zmiennych napisałem że do zbioru danych dodałem 37 binarnych zmiennych opisujących wyposażenie auta. Zobaczmy, które elementy wyposażenia mają największy wpływ na cenę auta.

Aby zmniejszyć objętość poniższego przykładu przedstawiam wyniki tylko dla wybranych elementów wyposażenia. Cztery elementy wyposażenia najdroższych aut to kseony, ESP, klimatyzacja i elektryczne lusterka. Auta, które w opisie wyposażenia miały wymienione wspomaganie kierownicy lub poduszkę powietrzną są o kilka procent tańsze od aut bez tych elementów w opisie. Nie oznacza to oczywiście, że z dwóch aut podobnych to bez wspomagania kierownicy jest droższe. Oznacza to raczej, że w opisie auta jeżeli pojawia się wspomaganie kierownicy to nie pojawiają się inne elementy jeszcze bardziej zwiększające ceny auta. Należy więc być bardzo ostrożnym interpretując wyniki z modelowania cen.

Poniższy model wyjaśnia już ponad 90% wariancji.

#
# Auta z kseonowymi lampami, klimatyzacjÄ…, ESP, elektrycznymi lusterkami sÄ… 
# średnio o kilka procent droższe od aut bez tych elementów. 
# Większość elementów wyposażenia nie różnicuje istotnie ceny auta
#
> model <- lm(log(Cena.w.PLN,2)~Model*Nadwozie+wiek+.-kodPocztowy1-kodPocztowy2, segmentC2)
> opisz(summary(model)$coefficients, "TRUE")
                              Estimate signif
wspomaganie.kierownicy        91.4     **
poduszka.powietrzna           94.6     **
welurowa.tapicerka            96.2     **
...
pierwszy.wlasciciel          100.2       
serwisowany.w.ASO            100.5       
bezwypadkowy                 100.7       
przyciemniane.szyby          101.0       
czujnik.deszczu              101.3       
system.nawigacji             101.9      *
tempomat                     101.9     **
bagaznik.na.dach             102.1       
skorzana.tapicerka           102.3      *
podgrzewane.fotele           102.5     **
el..szyby                    102.5      *
alufelgi                     103.0     **
kierownica.wielofunkcyjna    103.1     **
komputer                     103.2     **
klimatyzacja                 103.3     **
el..lusterka                 103.8     **
ESP                          104.3     **
ksenony                      108.2     **

 

Model 3. Lokalizacja, lokalizacja, lokalizacja

Kuszące jest dodać do modelu informację o kodzie pocztowym aby sprawdzić czy miejsce w którym oferowane jest auto istotnie wpływa na cenę ofertową.

#
# Różnice pomiędzy cenami aut są ,,istotne statystycznie''
# Nie jest to jednak duże osiągnięcie, biorąc pod uwagę 13 tysięcy ofert 
# na których przeprowadzamy testowanie.
# Wartość różnic nie jest duża w porównaniu do efektu wieku, modelu czy typu nadwozia.
#
> anova(model <- lm(log(Cena.w.PLN,2)~Model:Nadwozie+wiek+kodPocztowy1+kodPocztowy2+kodPocztowy5, segmentC2))
Analysis of Variance Table
 
Response: log(Cena.w.PLN, 2)
                  Df Sum Sq Mean Sq    F value    Pr(>F)    
wiek               1 5873.4  5873.4 72953.9503 < 2.2e-16 ***
kodPocztowy1      10    7.4     0.7     9.1992 2.489e-15 ***
kodPocztowy2      88   39.0     0.4     5.5087 < 2.2e-16 ***
kodPocztowy5    1091  240.8     0.2     2.7419 < 2.2e-16 ***
Model:Nadwozie    18  604.7    33.6   417.2709 < 2.2e-16 ***
Residuals      12210  983.0     0.1                         
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Model 4. Te wszystkie nieistotne zmienne

Ciekawym eksperymentem może być samodzielne znalezienie innych czynników istotnie różnicujące cenę auta. Szybko jednak się okazuje, że wyniki rozjeżdżają się z intuicją. I jest to za każdym razem efekt niezrównoważonych zmiennych (porównując diesle i silniki benzynowe trudno uciec od tego że diesle mają większy przebieg). Drugi ciekawy problem to szybko rosnąca macierz modelu. Jeżeli uwzględnimy wiek jako zmienna jakościowo i będziemy analizować jego interakcje z kodem pocztowym to jedna interakcja generuje ponad 1000 kolumn do macierzy modeli.

Analiza takich danych jest znacznie ciekawsza niż analiza zależności pomiędzy szerokościami płatków irysów jest też znacznie trudniejsza. Ale też bliższa rzeczywistym problemom.

Więc życzę miłej zabawy!

Plan na kolejny wpis: przedstawić powyższe liczbowe wyniki graficznie.

top