Zmiana dochodów w ostatnich 8 latach w podziale na płeć

Analiza zróżnicowania dochodów bardzo mnie interesuje. To jednak większy temat i poświęcimy mu więcej czasu kiedy indziej. Dziś chciałbym podzielić się jednym wykresem, na którym zobaczymy jak wyglądał rozkład dochodu netto ankietowanego w zależności od wieku i w zależności od płci, tak w roku 2003 jak i w roku 2011. Oczywiście złotówka dzisiaj i wtedy to dwie różne złotówki, nie sposób przeliczyć siły nabywczej teraz i wtedy bo zależy ona od koszyka zakupów. Inaczej wyglądała zmiana cen artykułów luksusowych, inaczej zmiana cen jedzenia a inaczej zmiana cen mieszkań. W każdym razie na potrzeby tego rysunku wykorzystam wskaźnik inflacji dla tych 8% wynoszący 23.7% (na podstawie http://blog.opiekuninwestora.pl/index.php/inflacja/). Więc przedstawiane ceny to albo ceny podane w roku 2011, albo ceny podane w roku 2003 i skorygowane o inflacje.

W poniższych ilustracjach nie analizujemy osobno osób żyjących samotnie (tzw singli), par bez dzieci (DINKs) i par z dziećmi, choć pewnie pomiędzy tymi trzema grupami są znaczne różnice, ale nie wszystko na raz.

Ciągła linia to wygładzona ocena mediany, przerywana to kwantyl rzędu 90%.
Dużych niespodzianek nie ma, ale niektóre wyniki są ciekawe.
Po pierwsze, nawet po uwzględnieniu inflacji zarobki wzrosły (nie tylko ankietowanych, bo to jest oczekiwane, ale tez rozkład zarobków w grupie wiekowej np 30 latków). I to wzrosły znacznie. Oby związane to było z większa produktywnością a nie spadkiem wartości złotówki.
Po drugie kobiety zarabiają mniej. Dotyczy to i medianowych zarobków i kwantyla 90%.
Po trzecie, i chyba najciekawsze, w roku 2011 wyraźnie widać, że najwyższe dochody uzyskują osoby w wieku 30-40 lat.
Biorąc pod uwagę, że oś oY jest logarytmiczna, zarówno osoby młodsze jak i starsze zarabiają znacznie mniej. U kobiet ten okres wyższych dochodów kończy się wcześniej niż u mężczyzn, ale u obu płci kończy się czy to patrząc na medianę czy na kwantyl 90%.
Inaczej było w roku 2003. Nie było wtedy tak dużych dysproporcji związanych z wiekiem, szczególnie jeżeli porównywać mediany dochodów. Ciekawe czy to zróżnicowanie będzie się jeszcze pogłębiało.

To pierwsza ilustracja. Czas na dokładniejsze drążenie tematu. Kierunków badania czynników różnicujących wysokość dochodów jest dużo. Może macie propozycje od czego zacząć?

Ceny mieszkań spadły o 20%!!! albo wzrosły o 5%!!! albo się nie zmieniły!!!

Ostatnio w gazetach pojawiło się kilka artykułów w których aby przyciągnąć więcej czytelników zastosowano bardzo głupie tytułu w stylu ,,Realne ceny mieszkań spadły/ mieszkania potaniały o 25% także w Warszawie”. Artykuły np. [gazeta na podstawie open finance], [raport oferty net], [wyborcza biz finanse] mają tą cechę wspólną, że podają liczby bez żadnej refleksji na temat tego jak liczby uzyskano i jakie ma to znaczenie. W każdym z przypadków badano zmianę ceny w trakcie ostatnich czterech lat (czyli od tzw górki 2007) tak więc i poniższe rozważania oprzemy na tym okresie.

Celem tego wpisu jest nie polemika z tym co to znaczy realna cena mieszkania, ani z tym czy spadek wynosił 25% czy nie, ale z tym, że jeżeli nie porównujemy ceny tego samego mieszkania to mówiąc o zmianie wartości należy dokładnie opisać zmianę wartości czego liczymy, bo wyniki mogą być bardzo różne. Dla każdej dzielnicy Warszawy na 8 sposobów policzymy jak zmieniały się ceny przez ostatnie 4 lata. I w każdym przypadku otrzymamy 8 różnych liczb opisujących zmianę ceny.

We wczorajszym wpisie dyskutowaliśmy różnice pomiędzy cenami m2 w dużych i małych mieszkaniach różnych dzielnic. Pisząc o strukturze koszyka pokazaliśmy, że badanie ,,tak po prostu” średniej mieszkań sprzedanych/oferowanych nie ma sensu jeżeli nie uwzględnimy jakie mieszkania (powierzchnia/lokalizacja/stan itp) wchodzą w skład koszyka. Poniżej będziemy podawać różne liczby ale nie po to by dowieść że cena zmieniła się o X%, ale by zaznaczyć jakie problemy wiążą się z analiza zmiany ceny. Wszystkie ceny to ceny ofertowe, nie pokrywają one całego rynku i pewnie nie są całkowicie reprezentacyjne. Nie mniej powinno być fajnie popatrzeć na obrazki.

Przyjrzyjmy się dzielnicy Żolibórz. Oś OY jest w skali logarytmicznej, pionowe szare linie oznaczają koniec roku. Na poniższym wykresie dla każdego miesiąca począwszy od września 2007 wyznaczamy wykres pudełkowy opisujący zmiany cen w danym miesiącu. W środku pudełka czarną kropką oznaczamy medianę cen w danym miesiącu. Następnie czterema liniami oznaczamy następujące trendy:

* linią czerwoną zaznaczamy trend liniowy wyznaczony na bazie wszystkich obserwacji używając regresji odpornej (funkcja rlm() w R), regresja odporna ma nas uchronić przed wpływem pojedynczych obserwacji odstających, nie uchroni nas jednak przed obciążeniem wynikającym z tego, że większość ofert sprzedaży dotyczy ostatniego roku.\ i to ten okres będzie głównie wpływał na ocenę trendu liniowego. W nagłówku wykresu podano cztery procenty, pierwszy z nich opisuje o ile ten trend liniowy się zmienił prze ostatnie cztery lata (-15.6%).

* linią niebieską zaznaczamy trend liniowy wyznaczony na bazie median cen używając regresji odpornej. Czyli najpierw wyznaczamy mediany cen w każdym miesiącu a później wyznaczamy trend. Tym razem trend nie jest już dominowany przez ceny z ostatniego roku. W nagłówku wykresu druga liczba to zmiana tego trendu przez ostatnie 4 lata (-7.6%, czyli około połowa poprzedniej liczby),

* linia zielona i trzecia liczba odpowiadają trendowi wyznaczonemu za pomocą lokalnego wygładzania. Ponieważ używanie trendu liniowego wydaje się być słabo uzasadnione, porównujemy trend liniowy z trendem wyznaczonym przez funkcję loess z parametrami rodzina = symmetric, span = 2/3, stopień wielomianu = 1. Oczywiście dla innych parametrów otrzymalibyśmy inne wygładzenie, te jednak wygląda w miarę dobrze. Trzecia liczba nagłówku opisuje o ile się zmieniła ocena trendu we wrześniu 2011 w stosunku do września 2007 (-11.1%).

* linia fioletowa łączy medianę ceny m2 mieszkań ferowanych we wrześniu 2007 z medianą ceny m2 mieszkań oferowanych we wrześniu 2011. Ponieważ danych o sprzedaży we wrześniu 2007 jest niewiele, ta linia wykazuje spora zmienność pomiędzy dzielnicami. Dla Żoliborza zmiana medianowej ceny m2 pomiędzy wrześniem 2007 a wrześniem 2011 to (-3.6%).

 

Mamy więc cztery liczby, począwszy od spadku niecałych 4% w cztery lata do spadku o ponad 15%. A to jeszcze nie wszystko. Te same analizy możemy zrobić uwzględniając strukturę wielkości mieszkań. Odrzućmy więc mieszkania najmniejsze i największe (te największe najwięcej straciły) i zajmujmy się tylko cenami m2 mieszkań o powierzchni od 49 do 68m2. Poniżej odpowiadający im wykres z oznaczeniami jak powyżej,

Jak widzimy ograniczając się tylko do segmentu mieszkań o średniej powierzchni otrzymujemy 4 inne trendy i cztery inne % opisujące zmianę tych trendów.

Która z tych 8 liczb lepiej opisuje zmianę cen mieszkań? Oczywiście to zależy jaki aspekt zmiany chcemy analizować. Ceny mieszkań zmieniają się w sposób złożony. Mnie najbardziej podoba się  trend lokalnie wygładzany, nie zakłada on liniowości tak jak linie czerwone i niebieskie a jednocześnie czerpie informacje z prawie wszystkich danych (w przeciwieństwie do linii fioletowej która patrzy tylko na skrajne miesiące).

W przypadku trendu nieliniowego nadużyciem jest stwierdzenie, że ceny spadały o X%, ponieważ w różnych okresach zachowywały się różnie.

Poniżej wyniki dla wszystkich dzielnic, pierwszy wykres bazuje na wszystkich obserwacjach, drugi dotyczy tylko mieszkań o średniej wielkości.

 

 

Czym się różnią ceny mieszkań na Żoliborzu od cen mieszkań na Bemowie

Dzisiejszy wpis to przygotowanie gruntu do jutrzejszego, w ktorym rozliczymy sie ze zmianami cen mieszkan. Od jakiegos czasu na różnych stronach można znaleźć artykuły o nazwach ”realne ceny mieszkań spadły o X %’’ (dobrze że realne, co to by byly gdyby spadaly ceny nierealne). Celem tego i kolejnego wpisu jest pokazanie że zmianę ceny można liczyć na wiele różnych sposobów otrzymując wiele różnych wyników. Więc podanie zmiany nie mówiąc dokładnie jak była ona liczona to zwykłą propaganda.

Będziemy korzystać ze zbioru danych mieszkaniaKWW2011, przeanalizujemy tylko ceny z miasta Warszawa dla mieszkan o powierzchni do 300m2. Na początek przyjrzymy się dwóm dzielnicom. Jednej w której mieszkam (Bemowo) i jednej w której ceny się ciekawie zachowują (Żoliborz).

Przedstawimy zmianę trendu ceny mieszkań w czasie w rozbiciu na trzy grupy wielkości mieszkań. Kwantyle rzędu 1/3 i 2/3 z rozkładu wielkości mieszkań wynoszą 49m2 i 68m2, wiec będziemy analizować cenę m2 w grupie mieszkań w trzech grupach: do 49m2, w grupie mieszkań dużych o powierzchni powyżej 68m2 i w grupie pozostałych – średnich co do wielkości mieszkań.

Na poniższym wykresie każdy punkt to jedna oferta sprzedaży. Linia zielona, różowa i niebieska oznaczają lokalne wygładzenie wielomianowe dla ceny m2 dla różnych grup wielkości mieszkań, a czarna linia przerywana to globalny trend w cenach mieszkań bez uwzględnienia struktury mieszkań. Struktura jest istotna ponieważ hipotetycznie, jeżeli mieszkania duże maja niższa cene za m2, i przed czterema laty mieszkań dużych bylo sprzedawanych mniej niż teraz to zaobserwujemy zmiane w średniej cenie nie ze względu na rzeczywistą zmianę ceny ale ze wzgledu na zmianę struktury sprzedawanych mieszkań. Podobnie z analizą cen w Warszawie. Jeżeli w tym roku sprzedaje sie więcej mieszkań na obrzeżach Warszawy niż przed czterema laty (z roku na rok buduje się średnio coraz dalej bo tam jeszcze jest miejsce) to zmiana średniej ceny będzie zwiazana z tym ze w koszyku jest coraz więcej mieszkań dalekich od centrum a wiec tańszych.

No dobrze, to tyle tytułem teorii a teraz obrazki dla dwoch obiecanych dzielnic.

 

Dla Żoliborza jak widzimy ceny m2 dla mieszkań dużych sa wyzsze niz dla malych, moze byc to zwiazane ze duze mieszkania to juz apartamenty dlatego cenę ich m2 ciezko porównywać z cena m2 mieszkania o standardowym wykonczeniu. Pdobnie beda zachowywaly sie mieszkania w Śródmieściu. Te apartamenty tez najbardziej straciły na wartości. Na Bemowie jest inaczej. Nie buduje sie raczej apartamentow w dzielnicy sypialni wiec tutaj to male mieszkania maja wyższą cenę za m2. W obu przypadkach ceny maja tendencje do spadania ale w kazdej kategorii tempo spadku jest inne.

 

Poniżej prezentujemy wykresy dla wszystkich dzielnic Warszawy.

Mapa wartości samochodów

Wczoraj graficznie przedstawialiśmy jak wygląda rozkład cen w zależności od roku produkcji. Co ciekawe w skali logliniowej zależność pomiędzy ceną a rokiem produkcji jest bardzo bliska liniowej dla wielu marek. Zakładając zależność liniową możemy wyznaczyć dwie liczby dla każdej marki. Średnią procentową zmianę ceny w ciągu roku i orientacyjną średnią cenę auta wyprodukowanego w roku 2006. Rok 2006 został wybrany by móc porównywać ceny różnych marek ze sobą, oczekiwaną cenę w roku 2006 wyznaczmy bez względu na to czy dany samochód był produkowany w tym roku czy nie (wykorzystamy liniową zależność aby oszacować średnią cenę w roku 2006).
Na poniższej mapie zaznaczono każdą markę w układzie dwóch współrzędnych, utraty wartości w ciągu roku oraz orientacyjnej ceny w roku 2006. Należy zaznaczyć, że wartość procentowa na osi OX to różnica pomiędzy średnimi cenami dwóch kolejnych roczników, a nie różnica pomiędzy ceną danego rocznika w dwóch kolejnych latach. Tą drugą wartość będzie można ustalić za rok.

 

Dodatkowo na tej mapie wielkością punktu zaznaczono jak wiele aut było wykorzystanych do oszacowania obu wskaźników (cztery wielkości do 100, od 100 do 200, od 200 do 500, powyżej 500) oraz z jakiego kraju pochodzi dana marka. Jeżeli chodzi o pochodzenie to z uwagi na przejęcia oraz przenoszenie produkcji do innych krajów należy tę informację traktować z dystansem.

To co ciekawego widać na tej mapie to że są auta tanie, które nie tracą wiele z czasem na wartości (np Fiat Uno), drogie, które też dużo na wartości tracą (Porche Cayenne), tanie które dużo tracą (Dacia Logan), drogie które mało tracą (Volkswagen Bora) i całe spektrum innych możliwości.

Aby łatwiej ten wykres się analizowało możemy dokonać zbliżenia

Volkswagen Passat traci średni 16% na rok i kosztuje z roku 2006 około 40tys. W otoczeniu znaleźć można np Toyote Corolle Verso. Na prawo znajdziemy Forda S-Maxa o podobnej cenie ale za to znacznie większej utracie na wartości.

Zobaczmy co się stanie jeżeli zagregujemy modele z tej samej marki.

 

Otrzymujemy mapę marek, im bardziej na lewo tej mapy tym mniejsza utrata na wartości im niżej tym tańsze auta.

 

 

 

 

 

 

 

 

Podkręcone wykresy

Trafiłem dziś na taki wykres:

źródło: Bankier.pl,artykuł http://www.bankier.pl/wiadomosc/Gospodarcze-osiagniecia-partii-politycznych-2417944.html

Artykuł dotyczył dyskusji która partia bardziej zadłuża Polskę, ale odłóżmy na bok politykę i zastanówmy się czemu autor tego wykresu nie wygiął go w rogala lub spirale by uzyskać jeszcze dziwniejszy wizualnie efekt.
Patrząc na ten rysunek można by pomyśleć że został on specjalnie tak opracowany, by nie dało się z niego odczytać ile wynosiło zadłużenie polski w latach 2005-2007.
Na szczęście dane są łatwo dostępne na stronie ministerstwa finansów http://www.mf.gov.pl/dokument.php?const=5&dzial=590&id=70516.
Więc relatywnie łatwo można taki wykres przygotować R bez żadnych dodatkowych zniekształceń osi
Nie jest to bogaty w ornamenty  wykres, brakuje na nim różnej wielkości znaczków poszczególnych partii, można za to odczytać prawie dla każdego miesiąca ile wynosiło zadłużenie Polski w danym okresie.
Kod R użyty do wygenerowania tego wykresu jest następujący

Czytaj dalej Podkręcone wykresy

Co się dzieje z cenami mieszkań?

Kilka dni temu pisałem o zmianach w cenach ofertowych cen mieszkań. Również kilka dni temu przeczytałem artykuł na GW o tytule  ”Mieszkań więcej niż kupujących. Ceny mogą jeszcze spaść ” (tutaj link).

Myślę, że każdy po przeczytaniu takiego tytułu ma prawo oczekiwać, że w artykule autor wykaże, że ceny spadają i że spadać będą. W tym kontekście dziwnie wygląda  wykres z tego samego artykułu (wklejony poniżej).

Co prawda miasta zostały ułożone w kolejności od najdroższych do najtańszych, przez co na pierwszy rzut oka nie patrząc an liczby widać wyraźny trend spadkowy, ceny lecą na łeb na szyję. Jednak gdy się przyjrzeć liczbom w trzech miastach ceny wzrosły a w pięciu zmalały. Już nie ma takiej dramatycznej zmiany.

Ok, pomińmy dyskusję czy ta manipulacja percepcją jest celowa czy nie. Zastanówmy się jak inaczej można zaprezentować te same dane. Poniżej dwa wykresy pierwszy nadawałby się do artykułu ,,Ceny mieszkań rosną i ta bańka puchnąć będzie wiecznie”, drugi jest bardziej wyważony.

 

I jeszcze dorzucę kod w programie R, który posłużył do wygenerowania tego obrazka.

# dane
x1 = c(8207, 6764, 5988, 5619, 5712, 4281, 4279, 3427)
x2 = c(7826, 6577, 6146, 5660, 5396, 4130, 4116, 3432)
lab = c("Warszawa", "Krakow", "Wroclaw", "Gdansk", "Poznan", "Bialystok","Lodz","Katowice")
# pierwszy wykres
par(mfrow=c(2,1), mar=c(0.5,0,0.5,0), oma=c(5,6,5,1))
plot(x1,x2, pch=19, xlim=c(3000, 9000), ylim=c(3000, 9000), xlab="", ylab="", las=1, xaxt="n")
axis(3)
mtext("cena za m2 w II kw 2010r", 3, line=3)
mtext("cena za m2 w II kw 2011r", 2, line=4)
abline(v=(3:9)*1000, lty=2, col="grey90")
abline(0,1)
par(xpd=NA)
text(x1, x2, lab, adj=c(0.5,-0.6))
# drugi wykres
par(xpd=F)

plot(x1,(x2/x1 - 1)*100, pch=19, xlim=c(3000, 9000), ylim=c(-6,4), xlab="", ylab="", las=1)
abline(v=(3:9)*1000, lty=2, col="grey90")
abline(0,0)
par(xpd=NA)
text(x1, (x2/x1 - 1)*100, lab, adj=c(0.5,-0.6))
text(x1+330, (x2/x1 - 1)*100, paste(x1,ifelse(x2>x1," +"," "),x2-x1," pln", sep=""), adj=c(0,-0.6), col=ifelse(x2>x1,"green","red"))
title(xlab="cena za m2 w II kw 2010r", line=3)
title(xlab="+ wzrost/spadek ceny w roku 2011", col.lab="black", line=4)
mtext("zmiana ceny po 12 msc %", 2, line=4)
par(xpd=F)

 

Interesująca wizualizacja zmian PKB

Wczoraj krytykowałem wykresy z GW, dziś pozytywny akcent z tej samej gazety.

Na stronie http://wyborcza.biz/biznes/0,118175,10269941.html umieszczono bardzo interesującą wizualizację zmian PKB przez ostatnie 4 lata, można nawet wyklikać naszą ,,zieloną wyspę” (I kw 2009).

Po kliknięciu na państwo można zobaczyć jak wygląda dług publiczny (warto klinkąć na Japonię). Jedyna rzecz której mi brakuje to wykresy porównawcze dynamiki zmian PKB w sąsiadujących gospodarkach.

Ceny metra kwadratowego we Wrocławiu

Kilka dni temu dodałem do repozytorium zbiór danych dotyczących cen ofertowych mieszkań z serwisu oferty.net (patrz: http://smarterpoland.pl/?p=60). Teraz przyszedł czas na przyjrzenie się bliżej tym danym.

Ponieważ większość z przeprowadzonych analiz uwzględniała zrożnicowanie pomiędzy dzielnicami to, aby nie zamazywać wyników efektami 40 różnych dzielnic, pokażę kilka analiz wykonanych wyłącznie dla Wrocławia. Administracyjnie Wrocław ma 5 dzielnic, w danych jest jeszcze szósty poziom ‘inne’ oznaczający brak lub niejednoznaczne przypisanie dzielnicy do oferty sprzedaży mieszkania. Oczywiście wszystkie analizy są generyczne i można je powtórzyć dla innych miast.

Przyjrzę się bliżej efektom wpływającym na cenę metra kwadratowego we Wrocławiu. Mieszkania podzilimy na cztery grupy, tzw. kawalerki (jeden pokój powierzchnia 20-35 m2), dla młodego małżeństwa (dwa pokoje 40-55 m2) i dla rodziny z dziećmi (3-4 pokoje 60-80 m2), inne, wybór całkowicie arbitralny. Zobaczmy jak rozkładają się ceny metra kwadratowego dla różnej wielkości mieszkań w różnych dzielnicach. Aby pracować z bardziej jednorodną grupą bierzemy na razie pod uwagę tylko rok 2011. Szerokość pudełka odpowiada liczbie ofert z danej dzielnicy. Interpretacja tak jak wykresu pudełkowego (boxplot). Zaskoczenia nie ma, im wieksze mieszkanie tym m2 tańszy, ceny w centrum sa wyższe niż poza, Śródmieście i Krzyki jako popularniejsze dzielnice sa tez droższe niż Psie Pole czy Fabryczna (każda z tych dzielnic jest bardzo duża, więc uśrednianie cen po całej dzielnicy to bardzo duże uproszczenie). Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]

 

 

Prosty model regresji liniowej pokazuje że na cene m2 wpływa istotnie kilka zmiennych, w tym: dzielnica, powierzchnia, data złożenia oferty. Przyjrzymy się każdej z tych zmiennych, zaczniemy od powierzchni. Najprostszą charakterystyką do przedstawienia będzie średnia cena m2, później przyjrzymy się innym charakterystykom. Zobaczmy jak średnia cena m2 rozkłada się dla mieszkań o różnej powierzchni w rozbiciu na dzielnice. Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]


Ograniczyliśmy się do przedziały powierzchni 20-100 m2, mieszkań spoza tego przedziału jest dosyć mało, więc wyniki byłyby mało wiarygodne. Obrazki mówią same za siebie, zatem darujemy sobie interpretacje powyższego wykresu. Kolejnym efektem, który będzie nas interesował, to zmiana ceny mieszkania w czasie. Skoro cena metra kwadratowego zależy od powierzchni to do kolejnej analizy zostały one skorygowane, tzn. zastąpione ceną metra kwadratowego odpowiadającą powierzchni 50m2.


Gorąca dyskusja na różnych forach nt. czy mieszkania drożeją czy tanieją wydaje się być łatwa do rozstrzygnięcia na podstawie powyższego wykresu. Ceny spokojnie i powoli sobie spadały w większości dzielnic do marca tego roku, gdy zaczeły spadać szybciej. Troche to zaskakujące, można jednak sprawdzić że podobny efekt utrzymuje się też w innych miastach. Optymiści (niepoprawni) mogą stwierdzić, że w Śródmieściu ceny rosły. Powyższy wykres dla Warszawy byłby ciekawszy, ponieważ mamy ceny z ostatnich pięciu lat, więc ciekawszy horyzont czasowy. Oczywiście powyższy trend dotyczy mieszkań z naszego zbioru danych, niekoniecznie jest on reprezentatywny, zatem i powyższe wyniki należy czytac krytycznie (jak wszystko). Zobaczmy jeszcze, ile ogłoszeń mamy z różnych okresów czasu.


Czy to nasze źródło danych jest coraz popularniejsze, czy też coraz więcej mieszkań się sprzedaje, trudno te dwa efekty rozwikłać.

Powyżej oglądaliśmy średnią cenę metra kwadratowego. Jasne jest, że rozkład cen jest silnie skośny, zdarzają się pojedyńcze bardzo drogie mieszkania i te pojedyncze obserwacje odstające wpływają silnie na średnią, więc wypadałoby porównać średnią z medianą albo inną bardzej odporną charakterystyką. Wykorzystamy regresję kwantylową i krzywe sklejane kubiczne, aby zamodelować zmienę mediany ceny metra kwadratowego w czasie. Wyniki poniżej, linia ciągła to wspomniana mediana, linia kropkowana odpowiada średniej.


Zgodnie z oczekiwaniami mediany sa poniżej średnich, trendy dla obu charakterystyk sa podobne. Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]

Podsumowując, modelowanie cen mieszkań to ciekawy temat, za jakiś czas zajmiemy się cenami w Warszawie i Krakowie.

Wykresy i kody programu R wykorzystane w tym wpisue znajdują się w katalogu http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/.

 

Zbiór danych o cenach ofertowych mieszkań z Warszawy, Wrocławia i Krakowa z lat 2006-2011

Ok, zaczynamy od zbioru danych. W pakiecie PBImisc umiesciłem kiedyś zbiór danych o 973 transakcjach dotyczących mieszkań z Warszawy. Mieszkań nie było zbyt dużo a transakcje dotyczyły tylko z Warszawy ale był to miły zbiór danych do ćwiczeń z R czy modelami liniowymi. Po dwóch latach nadszedł czas na aktualizację tego zbioru danych. Nowy zbior danych, który dzisiaj dodałem jest większy, dotyczy 188 884 ofert sprzedaży mieszkań zebranych dla miast Kraków, Warszawa i Wrocław z lat 2006-2011. Dane pochodzą z serwisu ogłoszeniowego http://oferty.net.

W tym miejscu: Wczytaj dane znajduje się skrypt R wczytujący dane bezpośrednio z internetu. Dane w postaci binarnej i tekstowej znajdują się w tym katalogu: Katalog z danymi.

Niebawem dodam kilka wizualizacji ilustrujących jak zmienia się cena mieszkań w czasie.