W poprzednim wpisie pokazywaliśmy, którzy z uczniów w Polsce mają częściej zajęcia dodatkowe z matematyki.
A dziś pokażemy jak taki obrazek zrobić samodzielnie! Wystarczy przekopiować kilka linii kodu do R i mamy wykres dla Polski lub innego, wybranego kraju.
Zrobimy to w czterech krokach.
1. Wczytujemy dane z badania PISA2009 i ograniczamy zbiór danych tylko do polskich uczniów.
1 2 3 4 5 6 7 | library(PISA2009lite) library(PISAtools) library(ggplot2) sstudent2009 <- student2009[student2009$CNT == "Poland",] schmeans <- by(sstudent2009[,c("PV1MATH", "W_FSTUWT")], sstudent2009$SCHOOLID, function(x) weighted.mean(x[,1], x[,2], na.rm=TRUE)) |
2. Przygotowujemy zbiór danych z trzema kolumnami – wynikiem z matematyki, wynikiem względnym z matematyki(minus średnia szkoły) i informacją czy uczeń ma zajęcia dodatkowe z matematyki.
8 9 10 | df <- na.omit(data.frame(MATH = sstudent2009$PV1MATH, MATHrelative = sstudent2009$PV1MATH - schmeans[as.character(sstudent2009$SCHOOLID)], dodatkoweZajecia = sstudent2009$ST32Q02 != "Do not attend", z = runif(nrow(sstudent2009)))) |
3. Aby narysować wykres konturowy potrzebujemy danych w innym formacie. Dla każdego punktu siatki musimy wyliczyć średnią liczbę studentów biorących korepetycje. W tym przypadku na bazie 400 sąsiadów.
12 13 14 15 16 17 18 | os1 <- seq(min(df[,1]), max(df[,1]), length.out=50) os2 <- seq(min(df[,2]), max(df[,2]), length.out=50) grid <- expand.grid(x = os1, y = os2) voting <- knn(df[,1:2], grid, cl=df[,3], prob=TRUE, k = 400, use.all=FALSE) z <- attr(voting, "prob") z <- ifelse(voting == "TRUE", z, 1-z) df2 <- data.frame(grid, z=1-z) |
4. Rysujemy używając pakietu ggplot2. Jest tutaj trochę opcji, ponieważ domyślny wykres nie jest najpiękniejszy, trzeba więc pozmieniać trochę elementów by wyglądał lepiej.
18 19 20 21 22 23 24 25 | p <- ggplot(df2, aes(x = x, y = y, z = z, fill= z)) p + geom_tile() + stat_contour( size=1, breaks=seq(0,1,0.1)) + theme_bw() + scale_fill_gradient2(low = "red", mid = "white", high = "blue", midpoint = .5) + geom_point(aes(x = MATH, y = MATHrelative, z = z, fill=z, shape=dodatkoweZajecia, color=dodatkoweZajecia), data=df, alpha=0.3) + scale_color_manual(values=c("blue", "red")) + xlab("Wynik ucznia z matematyki") + ylab("Wynik ucznia - sredni wynik szkoly z matematyki") |
Btw: bede starał się umieszczać kody R do odtworzenia analiz na githubie. Kody z tego przykładu znaleźć można tutaj
https://github.com/pbiecek/SmarterPoland_blog/tree/master/2013/Kto%20bierze%20korepetycje%20z%20matmy
Pozwól, że wpiszę się trochę z innej beczki. Ale chciałabym podsunąć ciekawy temat: statystyki przestępczości w Polsce. Konkretnie chodzi mi o zbadanie ich pod kątem, jakie jest ryzyko zgwałcenia w miejscu publicznym przez nieznanego sprawcę, w porównaniu do innych przestępstw z ręki nieznanego sprawcy w miejscu publicznym.
Piję oczywiście do najnowszych dyskusji medialnych. Chodzi o to, że wszystkie dyskusje na temat koniecznej ostrożności, bądź też wysokości ryzyka ponoszonego przez kobiety, są kompletnie oderwane od danych statystycznych.
Tutaj: http://jedyniesluszne.blox.pl/2013/09/Gwalt-w-Lesie-Kabackim-pora-na-zdemaskowanie.html i tutaj: http://jedyniesluszne.blox.pl/2011/09/Nie-chodz-wyzywajaco-ubrana-do-lasu.html próbuję robić pewne oszacowania, ale nie mam niestety dostępu do dostatecznie szczegółowych danych.
Pytanie, które stawiam, jest następujące: Czy kobiety przebywające w miejscu publicznym (a dobrze byłoby jeszcze rozróżnić na: miasto, las, etc., także porę dnia) są bardziej narażone na napaść niż mężczyźni? Dane, które znalazłam, zdają się wskazywać, że to właśnie mężczyźni są bardziej narażeni na napaść. Ale żeby to bez wątpliwości potwierdzić lub zaprzeczyć, trzeba by zrobić też podział na rodzaj przestępstw – np. czy zgwałcenie przez nieznanego sprawcę w lesie jest bardziej prawdopodobne niż pobicie przez nieznanego sprawcę w lesie? Albo podobne porównanie, ale zgwałcenie vs. zabójstwo? Zgwałcenie vs. napad z bronią w ręku? I czy napaść na kobietę jest bardziej czy mniej prawdopodobna od napaści na mężczyznę? Czy to zależy od rodzaju przestępstwa?
Dodatkowo zastanawiam się, czy statystyki mogą coś powiedzieć o ostrożności? Np. czy da się potwierdzić/zaprzeczyć tezie, że kobiety rzadziej padają ofiarami przestępstw, bo rzadziej przebywają „same w nocy w lesie” itp, czyli w okolicznościach sprzyjających przestępstwu?
A może da się wykonać porównanie statystyk przestępstw wobec mężczyzn i kobiet w okolicznościach, gdzie wiadomo, że obie płcie przebywają tak samo często i tak samo mało ostrożnie, tj. np. centrum miasta w biały dzień?
Zaciekawiło mnie, czy statystyki potrafią zaprzeczyć lub potwierdzić ulubiony przykład internautów: Jakoby zgwałcenie przez nieznanego sprawcę w lesie było równie prawdopodobne jak napad rabunkowy w niebezpiecznej dzielnicy, gdy ofiara szła „ze złotym rolexem na wierzchu”.
No więc tutaj można zadać wiele pytań. Chodzi mi o wyłuskanie pewnych nieoczywistych zależności. Podejrzewam, że wiele powszechnych przekonań nie ma odzwierciedlenia w statystykach. Pomyślałam, że fundacji Smarter Poland mogłoby być łatwiej dotrzeć do szczegółowych statystyk.
Pozdrawiam.
@anuszka, temat ciekawy. Ale obawiam się, że zbierane przez policję dane nie są wystarczająco szczegółowe by takie ryzyko ocenić [aby ocenić ryzyko trzeba wiedzieć ile jest obiektów ,,w stanie ryzyka” i na ilu z nich doszło do określonego zdarzenia, tego pierwszego nie wiadomo a jak się okazuje szacunki tego drugiego są marne].
Naprędce znalazłem statystyki policyjne dotyczące gwałtów tutaj http://statystyka.policja.pl/portal/st/842/47682/Postepowania_wszczete_przestepstwa_stwierdzone_i_wykrywalnosc_w_latach_1999__201.html. Wynika z nich, że liczba zgwałceń potwierdzonych spadła przez 10 lat o 40% [co dziwne liczba wszczętych postępowań jest cały czas na podobnym poziomie].
Niestety dla tych statystyk, zgodnie z wpisem na wikipedii http://pl.wikipedia.org/wiki/Zgwa%C5%82cenie, przeprowadzone badanie przez OBOP każe przypuszczać, że 90% przypadków zgwałceń nie jest zgłaszanych na policję. Czyli policja nie ma danych o większości zgwałceń.
Jeżeli chodzi o napaście lub morderstwa to sporo informacji można znaleźć o sytuacji w USA. Np. tutaj http://en.wikipedia.org/wiki/File:Violent_crime_rates_by_gender_1973-2003.jpg lub tutaj http://www.bjs.gov/content/pub/pdf/htus8008.pdf.
Wynika z nich, że kobiety rzadziej są ofiarami napaści niż mężczyźni (o około 20%) i trzykrotnie rzadziej są ofiarami morderstwa.
[pytanie tylko czy jest sens dane o przestępczości w USA odnosić do Polski]
O temacie będę pamiętał. Jeżeli natknę się na źródło, które może być użyteczne to do niego wrócę.
Nie rozważałeś zrobienia zestawienia cen biorąc pod wzgląd poziom nauczyciel, na podstawie informacji z portalu edukacyjnego Preply Polska http://preply.com/pl/
Nie znałem, ale portal wygląda bardzo ciekawie.
Świetny pomysł na projekt wakacyjny w grupie mi2. Może ktoś się zgłosi, jeżeli tak to napiszę o analizach.