Jak wyglądają ceny aut używanych w segmencie C, część 2

 

W poprzednim tygodniu (w tym wpisie) pisałem o tym jak modelować można cenę aut używanych, na przykładzie aut z segmentu C.

Dziś pokażę trzy wizualizacje tego zbioru danych, mam nadzieję, że interesujące.

Zobaczymy więc jak zmieniają się ceny aut w zależności od wieku aut, jak wygląda liczba oferowanych aut różnych marek i również jak wygląda wyposażenie aut różnych marek.

Zacznijmy od ceny.

[Rysunek 1. Rozkład cen ofertowych aut używanych w rozbiciu na markę i wiek auta. Czarna kropka odpowiada medianie, pudełka dolnemu i górnemu kwartylowi. Dla zwiększenia czytelności oś OY przedstawiono w skali logarytmicznej. ]

Spójrzmy teraz na dostępność ofert dla różnych marek. Dodatkowo przedstawimy liczbę oferowanych aut w danym roku w podziale na typy nadwozia.

[Rysunek 2. Liczba ofert sprzedaży używanego auta w rozbiciu na typ nadwozia, wiek auta i markę.  Dla niektórych modeli widoczna jest duża podaż +-5-letnich samochodów. Prawdopodobnie kończą się okresy gwarancyjne, auto się amortyzuje i takie auta są sprzedawane przez firmy leasingujące.]

I jeszcze rzut oka na wyposażenie.

[Rysunek 3. Na osi OY przedstawiono procent używanych aut oferowanych do sprzedaży, posiadających określony element wyposażenia. Najwięcej aut serwisowane w ASO stanowią auta mające 4 lata. Ciekawe trendy obserwuje się dla przyciemnianych szyb. Nowsze Astry, C4 i Cee’dy mają je coraz częściej, podczas gdy dla Audi A4 mamy odwrotny trend, przynajmniej  w ostatnich latach. Coraz więcej aut jest wyposażonych w takie elementy jak czujnik parkowania czy ESP (hmm, dziwny jest ten trend z ESP w Ceed’ach)]

 

Btw: wszystkie powyższe wykresy zostały wykonane funkcją xyplot() lub bwplot() w R z użyciem pakietu lattice.

Podział obowiązków w rodzinie

Dzisiaj ponownie bazujemy na danych z Diagnozy Społecznej (więcej informacji o tym zbiorze danych tutaj). W ankiecie z roku 2009 znalazło się pytanie, jaki powinien być twoim zdaniem podział obowiązków w rodzinie, w zależności od tego czy są w rodzinie dzieci i w jakim wieku (pytanie 107 kolumna ep107.1-ep107.4).

Pytanie dotyczyło w gruncie rzeczy tego, kto powinien pracować a kto nie. Z podtekstem że osoba niepracująca będzie zajmowała się domem i dziećmi.

Wyniki obrazuje poniższa tabelka, a przez resztę wpisu będziemy zastanawiać na jakim wykresie taką tabelę należy przedstawić.

W każdej kolumnie procenty grzecznie sumują się do 100%.

                                                                  dzieci do 3 lat dzieci od 3 do 6 lat dzieci od 6 do 12 lat nie ma dzieci do 12 lat
OBOJE PRACUJĄ W PEŁNYM WYMIARZE                                              5.00                11.92                 40.78                   83.76
ON PRACUJE W NIEPEŁNYM, ONA W PEŁNYM WYMIARZE                                0.29                 0.91                  1.34                    0.31
ON PRACUJE W PEŁNYM, ONA W NIEPEŁNYM WYMIARZE                               18.63                42.06                 41.68                   10.10
ON PRACUJE W PEŁNYM WYMIARZE, A ONA PRZERYWA PRACĘ NA PEWIEN CZAS           49.13                30.79                  9.32                    2.61
ON PRZERYWA PRACĘ, ONA PRACUJE W PEŁNYM WYMIARZE                             0.20                 0.40                  0.73                    0.15
ON PRACUJE W PEŁNYM WYMIARZE, ONA REZYGNUJE Z PRACY                         26.75                13.92                  6.15                    3.06

 

W oczy rzuca się brak symetrii, przy założeniu że ktoś powinien zrezygnować z pracy najczęściej pada na kobietę (uwaga 1: zobaczymy później jak to wygląda w rozbiciu na płeć, uwaga 2: to wyniki ankiet a nie moje opinie, feministki, proszę nie rysujcie mi lakieru na moim rowerze). Niewiele jest osób, które przy dzieciach do 6 lat model oboje rodzice pracują jest najlepszy.

Przejdźmy do wykresów. Powyżej różnych modeli podziałów obowiązków jest 6, ale w sumie interesować będą nas trzy główne: oboje rodzice na pełny etat, jeden z rodziców na część etatu, jeden z rodziców nie pracuje. Na pierwszym wykresie będziemy pokazywać zakumulowane procenty (kody w R poniżej)

 

Takie wykresy są często krytykowane ponieważ udział procentowy zielonej i fioletowej grupy ciężko porównać z uwagi na przesunięty punkt 0. Drugi częsty powód krytyki to łączenie odcinkami procentów, które sugeruje że jest jakiś trend (liniowy) w wynikach pomiędzy kategoriami.

Tak więc nawet jeżeli graficznie ten wykres mi się najbardziej podoba wypada zobaczyć jeszcze kilka innych wariantów.

Wykres paskowy, bez sugestii co do liniowości trendu.

I jeszcze jeden paskowy, ale bez skumulowania procentów

I jeszcze wykres punktowy. W teorii wykres punktowy łatwiej czytać niż powyższy, ponieważ oś OY nie jest tak szeroka.

Cztery wykresy. Podejrzewam że każdy znajdzie swojego amatora. A wracając do treści pokazywanej na tych wykresach to następnym razem wrócimy do tematu jak te proporcje zmieniają się w grupach wiekowych i płciach.

 

Bilion miliardów a Tufte

Europa gasi pożar olbrzymią ilością wirtualnych pieniędzy (niestety pożar nie jest wirtualny, ale to temat dla innego bloga).
Rzeczpospolita (nomen omen, której infografiki dosyć lubię) artykuł o ratowaniu sytuacji finansowej w Europie (tutaj link do artykułu) okrasiła takim oto wykresem

 

Jaki jest problem z tym wykresem? To, że zgodnie z opisem dane są w miliardach a na rysunku pojawia się słowo bilion, które sugeruje że potencjalne zasoby będą wynosiły miliard bilionów, to już pomijam.

Klasyczny problem z takimi wykresami polega na tym, że nie jest jasne czy podanym liczbom odpowiada wysokość, szerokość czy pole graficzki.

Pomiar średnicy bilionowej monetki daje 190px, pomiar średnicy drugiej co do wielkości monetki daje 125px. A więc to pole odpowiada podanej liczbie.

Szkoda, bo jak się okazuje ludzie bardzo niedokładnie potrafią porównywać pola figur, gorzej jest już tylko z objętościami. Najlepiej porównuje się długości odcinków w poziomie (przynajmniej zgodnie z badaniami Tufty’ego).

Więc zróbmy wykres w R tych samych liczb, ale bez fajerwerków.

I kod R który ten wykres wygenerował

 

1
2
3
4
5
6
7
8
9
10
x <- c(106.4, 376, 440, 1000, 74.1)
par(mar=c(5,20,3,3))
plot(1,type="n", las=1, yaxt="n",ylab="", xlab="nakłady w mld euro",xlim=c(0,1000), ylim=c(0.5,5.5), bty="n")
sapply(1:5, function(i) lines(c(0,x[i]),c(i,i)))
abline(v=seq(100,1000,100),col="grey95")
abline(v=0)
points(x, 1:5, pch=19)
mtext(side=2,line=-1.5,at=1:5, c("potrzeby kapitalowe bankow w Europie", 
     "pozyczki udzielone Portugali Irlandi Grecji", "dotychczasowe zasoby Europejskiego Funduszu Stabilnosci", 
     "potencjalne zasoby Europejskiego Funduszu Stabilnosci", "rezerwy walutowe Polski na koniec X 2011"), las=1, cex=0.9)