Liczba publikacji i liczba cytowań w Biologii Strukturalnej

Dwa tygodnie temu w Warszawie odbyła się konferencja Multi-Pole Approach to Structural Biology (patrz http://genesilico.pl/MultiPole/). Nie byłem na niej, ale wiele można było o niej usłyszeć. Jedną z takich rzeczy było zaprezentowanie raportu dotyczącego postrzegania pracy w Polsce przez naukowców z zagranicy (zobacz np artykuł To nie jest kraj dla naukowców?.
Inna ciekawostka związana z tą konferencją to umieszczanie krótkich informacji o zaproszonych prezenterach. W tych informacjach podawano między innymi liczbę publikacji i sumaryczna liczbę cytowań. Trzeba przyznać, że nazwiska zaproszonych prelegentów pojawiają się bardzo często w literaturze naukowej.

Liczby zostały rzucone, poniżej mała ilustracja tych liczb. Każda kropka to jeden prelegent. U osób o liczbie publikacji >=200 lub cytowań >=5000 zaznaczono imię i nazwisko.

 

Steve Jobs, stan nauki w Polsce i niezgoda na uliniawianie zależności

Ok, dzisiaj będzie ponownie o raporcie opracowanym w ramach programu Sprawne Państwo prowadzonego przez Ernst & Young. Odnosniki do raportu podalismy wczoraj. Dziś chciałbym przyjrzeć się wspólnie dwóm wykresom porównującym produktywność naukową w Polsce i w innych krajach.

Zacznę od jednego z moich ulubionych cytatów Steva Jobsa. Cytat dotyczy innowacyjności a innowacyjność kadry to moim zdaniem lepszy współczynnik oceny jakości uczelni niż produktywność liczona liczbą publikacji na nauczyciela akademickiego.

Innovation has nothing to do with how many R&D dollars you have. … It’s not about money. It’s about the people you have, how you’re led, and how much you get it.

Cytat ten nasunął mi się na myśl gdy zobaczyłem rysunek 11 w wspomnianym raporcie.

Dlaczego? Na tym wykresie (co za dobór państw do porównania?) Polska charakteryzuje się naniższymi rocznymi przychodami na pracownika. Na stronie 67 wspomnianego raportu napisano niebacznie ,,Wyniki estymacji ekonometrycznej wskazują w przypadku polskich uczelni wzrost finansowania na pracownika o 1% może być powiązany ze wzrostem efektywności badawczej aż o 4%”. Więc zwiększenie finansowania o 100% (co łatwo uzyskać zwalniając połowe pracowników) spowoduje wzrost efektywności o 400% (a tym samym przeskoczymy Finlandię i Niemcy, najbardziej zaawansowane technologiczie gospodarki w Europie).

Nie chciałbym tu romantycznie wieścić, że gdyby tylko Polska nauka była lepiej finansowana to stalibyśmy się liderem w Europie. Bo to nieprawda. Wcale nie chodzi tylko o ilość pieniędzy wpompowywanych (czy też w przypadku Polski, przesiąkających) w naukę. Chodzi o to czy naukowcy potrafią tę naukę uprawiać, czy potrafią współpracować, publikować, zarządzać zespołem itp. Moim zdaniem brak tych umiejętności to jeszcze większa bolączka niż problemy finansowe. Przygotowuję w wolnych chwilach esej ,,Fabryka i Świątynia”, szerzej tam ten temat rozwinę.

Ale na razie chciałbym porzestać na zakwestionowaniu sensowności dodawania linii trendu liniowego na powyższym wykresie.

Rozumiem, że gdy ma się młotek wszystko wygląda jak gwóźdź. Ale nawet w Excelu można dopasowywac inną krzywę trendu!
Model w którym średnia liczba publikacji zależy liniowo od rocznych przychodów na pracownika jest wysoce wątpliwy. Sama Polska na tym wykresie wygląda bardziej jak wartość odstająca, niż jak przypadek potwierdzający liniowość.

Drugi wykres w którym autorki wsadziły linie trendu liniowego jest na stronie 70 (wykres 14). Jest całkiem dobrą ilustracją paradoksu Simpsona.

 

Ta pseudoliniowość, która jest zaznaczona linią regresji wyliczona jest na bazie pięciu widocznych gołym okiem podpopulacji (nisko-publikujące uczelnie w UK, wysoko publikujące uczelnie w UK, uczelnie w Finlandii, Polsce i Szwajcarii, każde z nich tworząca osobne skupisko punktów na wykresie).

Co więcej w żadnej z tych podpopulacji trend nie jest podobny do wyrysowanego trendu liniowego. W Szwajcarii żaden trend liniowy nie jest widoczny, w dobrze publikujących uczelniach z UK krzywa trendu jest znacznie ostrzejsza, w słabo publikujaych uczelniach z UK jest znacznie słabsza.

Jedyny wniosek jest taki, że nie ma żadnego sensu liczyć pseudo trendu agregując uczelnie z czeterech państw razem.
Nie szukajmy liniowości na siłę tam gdzie ich nie ma a tym bardziej nie twórzmy wykresów, które sugerują tą zależność.

Ernst & Young, Sprawne Państwo a paradoksy w ocenie uczelni w Polsce

Dzisiaj podzielę się moim zaskoczeniem, gdy próbując odtworzyć wykres z raportu na podstawie danych z tego samego raporu otrzymałem zupełnie inne wyniki.

Kilka dni temu zgłosiłem apel o pomoc w zdobyciu danych dotyczących rozwoju pracowników naukowych. W ciągu tych kilku dni otrzymałem kilka listów z sugestiami ciekawych raportów dotyczący stanu nauki w Polsce. Między innymi od Krzysztofa T. dostałem namiar na raport ,,Produktywność naukowa wyższych szkół publicznych w Polsce” opracowany w ramach programu Sprawne Panstwo (program firmy Ernst & Young). Raport dostępny jest w postaci elektronicznej tutaj.

Po raporcie widać, że przygotowano go przez profesjonalistów. Ładnie dobrane odcienie szarości i pojawiające się łacińskie wtącenia sprawiają wrażenie rzetelności i profesjonalizmu. Jest też dużo tabelek z danymi (to na plus), odnośników do źródeł danych (to też na plus).

Niestety od strony statystycznej można się przyczepiać. Ponieważ generalnie cieszę się ze taki raport powstał, więc nie będę się czepiał bardzo, tylko na dwóch wpisach, tym i kolejnym ;-).

Zaczęło się od rysunku 12 ze strony strony 68 (patrz niżej) gdzie przedstawiona jest zależnośc pomiędzy przychodem na pracownika uczelni a liczbą publikacji na Nauczyciela Akademickiego (oznaczanego w całym raporcie konsekwentnie NA).

Pechowo na wykresie nie zaznaczono, która kropka to która uczelnia. Zaciekawiony która to kropka odpowiada najbardziej na prawo wysuniętej politechnice zacząłem przeglądać tabelę z danymi. Tabele 11 i 12 wydawały się pasować. W odpowiednich kolumnach przedstawiano i liczbę publikacji na NA i przychód na pracownika. Zrobiłem więc wykres o podobnych oznaczeniach jak ten prezentowany w raporcie, bazując na danych które przedstawiono w tymże raporcie i ze zdziwieniem zobaczyłem zupełnie inny obraz politechnik i uniwersytetów.

  • Z wykresu prezentowanego w raporcie wynika, że dwie uczelnie o najwyższych wskaźnikach publikacja na NA to uniwersytety.
  • Za to z wykresu prezentowanego na bazie danych które sa w raporcie wynika że w ścisłej czołówce uczleni o najwyższych wskaźnikach publikacja na nauczyciela akademickiego jest więcej politechnik.
  • Z wykresu prezentowanego w raporcie wynika, że przy tym samym przychodzie na uniwersytetach jest średnio więcej publikacji na PA niż na politechnikach (ciągła linia nad przerywaną)
  • Tymczasem z wykresu na bazie danych z raportu wynika rzecz zupełnie odwrotna, mianowicie że przy tym samym przychodzie na uniwersytetach jest średnio mniej publikacji na PA (ciągła linia pod przerywaną).

Przy okazji wyjasnijmy fenomen Uniwersytetu Jagielońskiego. Odstaje on znacząco od pozostałych uniwersytetów, tak bardzo że to aż zastanawia. Więc postawmy zagadkę dla czytelników, co ma UJ czego nie ma żadna duża z prezentowanych uczelni publicznych? Poniżej wykres tej samej zależności ale po usunięciu UJ. Pod wykresem znajduje sie odpowiedź na powyższą zagadkę.

UJ ma wydział lekarski i farmaceutyczny. We Wrocławiu, Warszawie czy Katowicach wydziały lekarski jest na Uniwersytecie Medycznym. Jeżeli chcieć uczciwie porównać różne uniwersytety to trzeba uwzględnić różną czestość publikowania w różnych dziedzinach. Umieszczanie UJ z wydziałem lekarskim w tej samej kategorii co pozostałe uniwersytety to błąd.

 

Różnica pomiędzy danymi a wykresami bieże się stąd, że dane przedstawiono dla jednego roku (2007/2008) podczas gdy na wykresach prezentowane są wskaźniki uśrednione z 10 lat, same wskaźniki nie sa jednak w raporcie prezentowane. Dziwne to.

 

Fundacja Nauki Polskiej, analiza przeżycia, wiek habilitacji i apel w sprawie danych

Zdarzało mi się na ramach tego bloga czepiać wykresów, że czegoś nie widać lub że widać coś czego nie ma. Dziś będę czepiał się wypowiedzi, które sugerują że pewien wniosek został wysnuty na podstawie wnioskowania statystycznego, ale gdy się zastanowić nad tym co to za wnioskowanie to pojawia się więcej pytań niż odpowiedzi.

Takie problemy są powszechne w gazetach skierowanych do szerokiego grona odbiorców. W tym przypadku jednak rzecz dotyczy zdania z ramki na 9 stronie rocznego raportu działania Fundacji na rzecz Nauki Polskiej (a więc największej w Polsce pozarządowej organizacji wspierającej Polską Naukę). FNP to organizacja od kórej można wymagać więcej, a mam też nadzieję, że wybaczy mi czepialstwo.

Chodzi o zdanie
,,Z badania karier laureatów programu START przeznaczonego dla najmłodszych uczonych, który fundacja realizuje od 1993r., wynika, że uzyskuja oni habilitację średnio o 9-10 lat wcześniej niż osoby niekorzystające z tego programu stypendialnego”.

Ok, co jest nie tak z tym zdaniem?

1. brak odnośnika do danych lub raportu na którym się opierano. Od innych organizacji bym tego nie oczekiwał ale FNP powinno wytyczać kierunki, a tym samym mogłoby udostępniać dane na podstawie których wnioskują.

2. Nie jest jasne jaką relację to zdanie ma pokazać. Czy to, że ci młodzi uczeni szybciej zrobili habilitację dzięki stypendium FNP, czy też czy fundacja umiejętnie odnajduje osoby które szybko zrobią habilitację (zgodnie z dewizą fundacji ,,wspierać najlepszych, aby mogli stać się jeszcze lepsi”)

3. Nie jest jasne kim są ci ,,niekorzystający z tego programu”.
Czy to rówieśnicy osób korzystajacych z programu, o podobnym potencjalne. Taka grupa kontrolna? Raczej nie. Bezsensowne byłoby losowe nieprzydzielanie stypendiów tylko po do by zbadać efekt programu.
Czy to rówieśnicy osób korzystających z programu, którzy nie aplikowali lub aplikowli ale nie otrzymali stypendium.
Czy tez wszyscy naukowcy bez wzgledu na wiek. To ostatnie rozwiązanie byłoby niedobre. Kiedys habilitacje i doktoraty robilo sie dłużej, nie bylo cztero czy trzyletnich studiow doktoranckich ale doktoraty i habilitacje robili asystenci/adiunkci laczac prace naukowa z innymi obowiazkami bez presji ze po ośmiu latach zatrudnienia będą wyrzuceni jeżeli habilitacji nie zrobią.

4. Najlepszą grupa kontrolną byliby rówieśnicy, ale wiele wskazuje że tak nie było.
Jeżeli program realizowany jest od 1993 roku a raport dotyczy roku 2010 to najstarsi stypendyści są 17 lat po otrzymaniu stypendium. Przyjmijmy uproszczenie, ze co roku podobna liczba osob otrzymuje stypendium START, wiec stypendyści są średnio 8.5 roku po otrzymaniu sypendium.
Stypendium START jest dla osob mlodych (do 30 roku zycia) najczesciej swieżo po doktoracie.
Trudno odgadnąć w ile lat robi sie szybko habilitaję, ale mysle ze srednio 6 lat w grupie stypendystow to bylby dobry wynik.
W grupie niestypendystow musialoby to być wiec 15-16 lat lub więcej po doktoracie. Ale program stypendialny nie jest tak długo prowadzony by mieć rówieśników robiących habilitację w takim wieku.

Ok, czyli wybór grupy kontrolnej jest niejasny, teraz zastanówmy się co z metodologią.
Do porównania obu grup uzyto średnich liczby lat do habilitacji.
Ale liczba lat do habilitacji to zmienna cenzurowana. W badanej grupie z pewnoscia sa osoby ktore jeszcze nie zrobiły habilitacji i pracuja w nauce oraz osoby ktore zrezygnowały ze ścieżki naukowej i nie beda robily habilitacji.
Liczenie średniej z tylko tych osób które zrobiły habilitacje jest błędem, poniewaz gubi informację jaka frakcja osób zrobiła habilitacje. Nawet pomijając te problemy to dla wielu rozkładów średnia nie jest dobrym miernikiem czegokolwiek.

Ok, sposób porównywani grup pozostawia wiele do zyczenia, ale takich porównań będzie coraz więcej, więc warto się zastanowić jak je robić. Np. czy czas do habilitacji różni sie i jak pomiędzy róznymi jednostkami naukowymi.

Odpowiednie byłyby narzędzia z analizy przyżycia, np. krzywa Kaplana Meiera pokazujące jaka frakcja osób zrobila habilitacje do k-tego roku. Lub funkcja intensywnosci / funkcja hazardu pokazujaca jaka jest częstość robienia habilitacji w k-tym roku.
Z krzywych Kaplana Meiera mozna by zobaczyć w jakim wieku najczęściej robiona jest habilitacja.

Ok, ale aby zrobić taka analizą trzeba mieć dane. Najlepiej w postaci wektora danych dla osob z informacja w jakim wieku dana osoba zrobila doktorat / habilitacje / czy otrzymala stypendium FNP i np gdzie teraz pracuje.

Ale skad takie dane wziac?

Tu prosba do Was, ktokolwiek widział, ktokolwiek wie o miejscu z ktorego mozna takie dane dostac prosze o informacje.

Próbowałem serwisu http://nauka-polska.pl, niestety jest tam limit na liczbe zapytań do bazy danych które mozna wykonac z jednego adresu IP w jednostce czasu. Ten limit można by obejsc ale sam fakt ze go ustawiono oznacza, ze twórcom nie spodobaloby sie twórcom gdyby ich dane ściągnąć i upublicznić. Ale może są jakies inne źródła publicznie dostepnych danych?

Z czym koreluje wykształcenie a dwuwymiarowa analiza gradacyjna

Dwa tygodnie temu pisałem po raz pierwszy o analizie gradacyjnej. Więcej o jednowymiarowej analizie gradacyjnej znaleźć można tutaj. W międzyczasie magistranci przedstawiają kolejne warianty tej analizy. Dziś na przykładach pokażemy dwuwymiarową analizę gradacyjną.

Przepis:
– weź dwie zmienne jakościowe.
– dla każdej grupy pierwszej zmiennej jakościowej wykonaj jednowymiarową analizę gradacyjną drugiej zmiennej jakościowej, porównując rozkład w grupie versus rozkład brzegowy.

Kod do wykonania dwuwymiarowej analizy gradacyjnej znajduje się poniżej

# funkcja pomocnicza, rysuje dwuwymiarowa analizę gradacyjna na jednym panelu
plotGradeStat2D <- function(zmienna1, zmienna2, osX = "", osY = "", cex.text=0.8, tekst=TRUE) {
  tab    <- table(factor(zmienna1),factor(zmienna2))
  tabSum <- addmargins(tab, 2)
  tabProp<- prop.table(tabSum, 2)
  tabCS  <- apply(tabProp, 2, cumsum)
 
  kolor  <- brewer.pal(ncol(tab),"Set3")
  plot(c(0,1),c(0,1),type="n",pch=19,xlab=osX,ylab=osY)
  abline(0,1,col="grey")
  abline(h=seq(0,1,0.2),col="grey95",lty=3)
  abline(v=seq(0,1,0.2),col="grey95",lty=3)
  for (i in 1:ncol(tab)) {
    points(c(0,tabCS[,"Sum"]), c(0,tabCS[,i]), type="b", pch=19, col=kolor[i])
  }
  legend("topleft", colnames(tab), col=kolor, pch=10, lwd=3,bty="n")
 
  par(xpd=NA)
  if (tekst) 
    text(tabCS[,"Sum"], apply(tabCS,1,min),rownames(tabCS), srt=-45, adj=c(0,0),cex=cex.text, col="black")
  par(xpd=F)
}
# funkcja wlasciwa, rysuje dwa panele, zamieniajac zmienne miejscami na osiach
plotGradeStat2D2  <- function(zmienna1, zmienna2, osX="", osX1=osX, osX2=osX, osY="", osY1=osY, osY2=osY, ...) {
   par(mfrow=c(1,2))
   par(xpd=F)
   plotGradeStat2D(zmienna1, zmienna2, osX=osX1, osY=osY1, ...)
   plotGradeStat2D(zmienna2, zmienna1, osX=osX2, osY=osY2, ...)
}

Wykorzystamy tę analizę by zbadać zależność pomiędzy wykształceniem respondenta (zmienna jakościowa: podstawowe, zasadnicze, średnie, wyższe) a trzema innymi zmiennymi jakościowymi: pytaniem czy przed 1989 żyło się lepiej, pytaniem czy denerwują respondenta decyzje władz, pytaniem o wykształcenie ojca.

Poniższe wykresy umieszczane są jako obiekty SVG. Jeżeli się nie wyświetlają to odpowiadające im pliki png znaleźć można w tym katalogu.

Wykształcenie ojca gdy ankietowany miał 16 lat a wykształcenie ankietowanego.

Panel lewy od prawego różni się kolejnością zmiennych. Im bliżej krzywa opisująca wybraną grupę przekątnej narysowanej na szaro, tym mniejsza różnica w odpowiedziach tej grupy respondentów a odpowiedziami wszystkich respondentów. W przypadku powyższego wykresu pomiędzy grupami są duże różnice. Ewidentnie wykształcenie ojca ankietowanego i ankietowanego jest silnie skorelowane.
Wśród osób o wykształceniu podstawowym i niższym 80% osób ma ojca również o wykształceniu podstawowym lub niższym. Wśród osób o wykształceniu wyższym 20% ma ojca o wykształceniu podstawowym lub niższym. Tak więc zależność jest wyraźna i silna.

Zauważmy ile informacji możemy z powyższych wykresów odczytać. Na osi OX przedstawione są rozkłady brzegowe raz jednej raz drugiej zmiennej. Możemy więc porównując wartości na osi OX powiedzieć, że w pokoleniu rodzicielskim (brzmi to strasznie, ale nie możemy napisać w pokoleniu poprzednim, ponieważ nie mamy reprezentantów osób bezdzietnych) ponad 40% osób miało wykształcenie podstawowe i niższe, w pokoleniu ankietowanych ta frakcja spadła ponad dwukrotnie do 20%. Możliwości edukacyjne są więc większe.

Kolejny wykres dotyczy wykształcenia a odpowiedzi na pytanie kiedy żyło się lepiej, czy przed 1989 czy teraz.

Około 35% odpowiedzi było że kiedyś żyło się łatwiej, 20% że teraz, 25% że ankietowany jest za młody i reszta że trudno powiedzieć. Jest zależność pomiędzy wykształceniem a udzielonymi odpowiedziami, osoby o wykształceniu wyższym częściej niż średnia uważa że teraz życie się lepiej. Osoby o wykształceniu podstawowym częściej niż średnia uważają że żyło im się lepiej przed 1989.

Ostatnie porównanie dotyczy pytania czy jest się i jak często denerwowanym prze z decyzje władz. Tym razem pomiędzy grupami osób o różnym wykształceniu odpowiedzi kształtują się podobnie.

Zależność jest nie duża, osoby o wykształceniu podstawowym trochę rzadziej niż średnia denerwują się na decyzje władz. Czyżby to ignorancja dawała spokój? A może to inna mądrość pozwala na nie przejmowanie się rzeczami na które nie czuje się wpływu?

Polskie ogonki a iconv()

Napisał do mnie maila Krzysztof T. z informacją, że strona kodowa windows-1250, którą zakodowałem polskie znaczki w zbiorze danych Diagnoza Społeczna źle wygląda pod Linuxami.

Zmieniłem więc pliki z danymi usuwając znaki diaktrytyczne. Można też było zmienić kodowanie na UTF-8, ale usunięcie ogonków gwarantuje zgodność z każdym systemem operacyjnym.

Do zmiany kodowania w programie R można użyć funkcji iconv(), która wykorzystuje specyficzne dla systemu narzędzia do konwersji. Listę obsługiwanych stron kodowych wyświetla funkcja iconvlist().

Poniżej przykładowy kod R który usuwa znaki diaktrytyczne ze zbioru danych diagnozaOsoby2011. Podanie argumentu to=”UTF-8″ spowodowałoby konwersje do formatu UTF-8. W systemie Windows od wersji R 2.11 aby usunąć ogonki należy podać argument to=”ASCII//TRANSLIT”, pod innymi systemami wystarczy to=”ASCII”.

 

# konwertujemy nazwy kolumn
colnames(diagnozaOsoby2011) <- iconv(colnames(diagnozaOsoby2011), from="windows-1250", to="ASCII//TRANSLIT")
 
# konwertujemy nazwy poziomów w zmiennych jakościowych
for (i in 1:ncol(diagnozaOsoby2011)) 
   if ("factor" %in% class(diagnozaOsoby2011[,i])) 
      levels(diagnozaOsoby2011[,i]) <- iconv(levels(diagnozaOsoby2011[,i]), from="windows-1250", to="ASCII//TRANSLIT")

Gdzie można zarobić? Kto może zarobić?

Tym wpisem mam nadzieję, że zakończę pokaźną serię wizualizacji danych z Diagnozy Społecznej i znajdziemy kolejne ciekawe dane.

Jakiś czas temu pojawiła się w komentarzach sugestia, by sprawdzić jak na dochody wpływa miejsce zmieszkania, wykształcenie, zawód, stan cywilny itp. Nie każdą z tych rzeczy łatwo sprawdzić na danych z Diagnozy, np. frakcja osób, które podały zawód jest dosyć nieduża. Ograniczymy się więc do zależności, które możemy badać na dużych grupach ankietowanych

Widzieliśmy już, że dochody zależą istotnie od wieku i od płci. Aby usunąć wpływ tych zmiennych poniżej wykonamy analizą tylko dla pracujących mężczyzn w wieku od 30 do 45 lat.

Zaczniemy od związku miejsca zamieszkania z dochodami. Prosta dwukierunkowa analiza wariancji pokazuje, że dochody zależą od województwa i od wielkości miasta i również, że ta zależność nie jest addytywna. Tzn. wpływ/efekt wielkości miasta jest różnych w różnych województwach. Wyników analizy wariancji nie zamieszczam ale można ją odtworzyć z skryptu w R. Co ciekawe otrzymujemy podobne wyniki bez względu na to czy analizujemy dochody zlogarytmowane czy nie, czy użycjemy transformacji Boxa Coxa czy nie.

Wielkość miasta w którym pracuje akietowany podzielono na trzy grupy: 'wieś’, do 200 tys’ i 'powyżej 200tys’. W oryginalnych danych tych grup jest więcej, ale połączone zostały te najbardziej do siebie podobne w celu otrzymania możliwie czytelnych wykresów. Województw jest 16, w czterech z nich nie ma miast o wielkości powyżej 200tys mieszkańców, stąd brakujące elementy ponizej.

Na poniższym wykresie zaznaczono dla każdego województwa rozkład dochodów netto w rozbiciu na wielkość miasta zamieszkania. Kolory odpowiadają wielkości miasta. Jasny/blady pasek odpowiada rozpiętości średnich dochodów 50% zarabiających osób z danej lokalizacji, lewy brzeg odpowiada dolnemu kwartylowi, prawy brzeg górnemu kwartylowi. Czyli możemy potraktować ten pasek jako reprezentację najbardziej typowych dochodów. (Uwaga! oś logarytmiczna). Kropką zaznaczono medianę dochodów a krzyżykiem średnią. Średnia potrafi być znacznie wyższa niż mediana, ale tak to już jest z dochodami. Po prawej stronie wykresu podano dla każdego województwa informację o liczbie osób na podstawie której konstruowany jest ten wykres (odpowiednio na wsi, małym mieście, dużym mieście).

Co ciekawego tu widać? Zazwyczaj im większe miasto tym wyższe dochody. Stolica znacząco odstaje od pozostałych lokalizacji. Ale są też wyjątki od tej reguły. W województwie Podlaskim duże miasto (czyli Białystok) charakteryzuje się mniejszymi dochodami niż otaczające go małe miasta i wsie (region żyje z turystyki). W innych województwach najniższe dochody mają osoby mieszkające na wsi.

 

Poniżej przedstawiamy te same dane ale zamieniając kolejność zmiennych, tym razem pokazemy obok siebie województwa. To samo województwo jest oznaczone tym samym kolorem, a kolejność odpowiada średniemu dochodowi. W grupie dużych i średnich miast najwyższe dochody mają osoby mieszkające w województwie Mazowieckim. Ale juz  w kategori wieś najlepiej zarabiają mieszkańcy Pomorza. Przy czym średnia bardzo odstaje od mediany, więc nie wszystkim mieszkańcom tego województwa się tak świetnie powodzi.

 

Jako uzupełnianie tematu poniżej przedstawiam zależności pomiędzy stanem cywilnym a dochodami oraz pomiędzy liczbą lat edukacji a dochodami. Miło zobaczyć piękną korelacje pomiędzy liczbą lat nauki a dochodami.

 

Jakie będą ceny mieszkań za 12 miesięcy?

Przeglądałem dzisiaj stare wydania Rzeczpospolitej, i znalazłem ciekawy wykres w kwietniowym wydaniu (http://www.rp.pl/galeria/8,2,641431.html).

Deweloperom zadano pytanie czy ceny mieszkań wzrosną czy spadną w przyszłym roku. Porównano wyniki z odpowiedzi z czerwca i grudnia roku 2010. Odpowiedzi przedstawiono za pomocą następującego wykresu.

 

Ponownie, najdziwniejsze w tym wykresie jest to, że na pierwszy rzut oka nie widać czy i jak odpowiedzi się zmieniły. Najbardziej w oczy rzuca się para dwóch czerwonych i dwóch zielonych słupków. Nie wiedzieć czemu czerwone odpowiadają grudniowi a zielone czerwcowi.

Do pokazywania uporządkowanych zmiennych jakościowych lepsze są wykresy paskowe. Pozwalają ona na łatwe porównywanie skumulowanych liczebności. Przedstawmy więc te dane co powyżej za pomocą prostego wykresu paskowego.

Myślę, że po spojrzeniu na ten wykres nikt nie ma wątpliwości że opinie pytanych deweloperów zmieniły się znacznie przez te 6 miesięcy.

 

Kto i kiedy się uczy

Dzisiaj pojawiło się interesujące pytanie/komentarz do poprzedniego wpisu, mianowicie czy i ile uczą się Polacy po trzydziestce. Czy jest tak, że uczymy się tylko do pełnoletności a później z rozpędu jeszcze przez studia, czy też nieustannie rozwijamy swoje umiejętności.

Pytanie, na które będę chciał poniżej odpowiedzieć to czy i ile uczymy się. Będziemy porównywać jak wygląda ilość czasu poświęcanego na dodatkową edukację teraz w porównaniu z poprzednią dekadą. Zobaczymy jak kontynuacja edukcji zależy od wieku oraz od juz posiadanego bagażu lat eukacji.
Odpowiedź na powyższe pytania postaram się zmieścić na niewielkiej liczbie ,,upakowanych” wykresów. Może więc trudno będzie je odczytać na pierwszy rzut oka, ale mam nadzieje że jak już się to uda to okażą się one informatywne.

Tak więc poniżej kilka trudniejszych wykresów.

Kod w programie R, użyty do wygenerowania poniższych wykresów znajduje się w katalogu tutaj. W tym katalogu znajdują się rownież poniższe wykresy w formacie SVG. Ponieważ niektóre pliki mają ponad 600kB wolałem do wpisu podlinkowac znacznie lżejsze pliki PNG.

Przejdźmy do analiz. Poniżej przedstawione są dwie serie wykresów. Jedne wykorzystują paletę kolorów – odcieni fioletu, drugie odcieni koloru ceglastego. Oba komplety wykresów przedstawiają te same dane ale w trochę innej formie.

Należy zaznaczyć, że liczba lat edukacji jest deklarowana przez ankietowanego, a ankieter tej liczby nie sprawdza. Ankietowany mógł nie pamiętać co odpowiedział dwa lata wcześniej, nie zawsze też ze zmienioną liczbą lat edukacji idzie prawdziwe szkolenie.

Na poniższym wykresie przedstawiamy liczbę lat edukacji respondentów w latach 2005 i 2003. Wszystkich respondentów podzieliliśmy na 16 grup wiekowych, każda grupa o rozpiętości 5 lat. Na osi OX zaznaczono, która grupa jest aktualnie opisywana. Wiek tu podany dotyczy roku 2003. Dla każdej grupy na górze wykresu zaznaczono ile średnio lat edukacji przybyło osobom w tej grupie wiekowej po dwóch latach badania. Czyli przykładowo, w najmłodszej grupie wiekowej, osób od 15 do 20 lat, deklarowana liczba lat nauki w roku 2005 wzrosła o 1.4 w stosunku do roku 2003. Jeżeli spojrzymy na grupę osób od 21 do 25 lat to liczba lat edukacji wzrosła o dwa razy mniej, czyli 0.71 roku. Długość czerwonej kreski nad liczbą jest proporcjonalna do tej liczby. Umożliwia to szybką orientację w jakim wieku Polacy najwięcej się uczą. Największy przyrost liczby lat edukacji obserwujemy w grupie osób 15-20 lat. Ale osoby starsze też się uczą. Przykładowo w grupie 40-45 lat przybyło przez 2 lata średnio 0.14 lat edukacji. Pytanie oczywiście czy edukowali się dodatkowo Ci już z dużym stażem, czy też raczej osoby o krótkiej historii edukacji uzupełniały swoją wiedzę. Na to pytanie odpowie pozostała część wykresu.

Dla każdej grupy wiekowej przedstawiono za pomocą wykresu pudełkowego rozkład liczby lat nauki w roku 2003. Z tego wykresu można odczytać ile interesująca nas grupa miała lat nauki na koncie w roku 2003. Z każdego wykresu pudełkowego wychodzi kolekcja kresek na prawo do góry. Każda z tych kresek dotyczy podgrupy osób o zadanej liczbie lat edukacji i zadanym wieku. Przykładowo najgrubsza, cała ceglana, kreska w lewym dolnym brzegu dotyczy osób będących w grupie wiekowej 15-20 lat i mających w roku 2003 na koncie 9 lat edukacji.

Długość tej kreski i kolor opisuje ile osób kontynuowało naukę i jak długo. Grubość kreski odpowiada liczbie osób w danej grupie, jest ona proporcjonalna do logarytmu dwójkowego z liczby osób. Ale na potrzeby tego opisu wystarczy zauważyć, że im grubsza kreska tym więcej osób było w tej grupie.  Mamy wieć grupę 15-20 latków, którzy w roku 2003 mieli 9 lat edukacji, zapytamy się teraz ilu z nich kontynuowało edukację i przez jak długo. A dokładniej zapytamy się jak wyglądały w tej grupe kwantyle liczby lat edukacji rzędu 0.25, 0.5, 0.75 i 0.9 po dwóch latach. Im ciemniejszy kolor tym niższy kwantyl, czyli więcej osób uczyło sie przynajmniej tyle lat. Ponieważ liczbę lat edukacji podawano jako liczbę całkowitą, to każda z tych kresek może mieć długość 0, 1 lub 2. Wspomniana już gruba ceglasta kreska ma długość 2, co oznacza, że ponad 3/4 osób (ponieważ kwantyl 0.25 oznaczany jest ciemnym bordowym) kontynuowało edukacje przez 2 lata i w roku 2005 miało już na koncie 11 lat edukacji. Poniżej tek kreski jest inna dwukolorowa kreska, która odpowiada stwierdzeniu że ponad 1/2 osób startujących w roku 2003 z 8 latami edukcji kontynuowała edukację przez 2 lata, a ponad 3/4 z nich przez przynajmniej jeden rok.

Generalnie im ciemniejsza kreska tym więcej osób a im dłuższa to tym dłuzej się eudkowało. Pojedyncze kropki czerone oznaczają, że w danej grupie nikt nie zdecydował się na kontynuowanie nauki.

Co ciekawego widać? Np. że w grupie 30-35 lat są i osoby które uzupełniają edukację o studia wyższe i podyplomowe (15 i więcej lat edukacji), jak równiez osoby, które kończa szkołę średnią. W grupach osób starszych studentów jest już mniej, ale cały czas jakiś procent osób (ponad 10% – kolor beżowy) uzupełnia edukację najpewniej o szkołę średnią.

Zobaczmy teraz podobny wykres pokazujący lata 2009-2011.

Jeżeli otworzyć oba powyższe obrazki na dwóch sąsiednich zakładkach to łątwiej zobaczyć czym się różnią. Generalny wniosek jest taki, że jest więcej i też ciemniejszych kresek, więc w ostatnich dwóch latach więcej osób edukowało się (lub przynajmniej tak twierdziło w badaniu). Nawet w grupie osób starszych, powyżej 75 roku życia obserwuje się znaczny (ponad 25%) odsetek osób uzupełniających edukację, szczególnie podstawową.

Również porównując czerwone paski i procenty na górze wykresu widzimy że średni przyrosk liczby lat edukacji jest większy pomiędzy latami 2009-2011 niż 2005-2003.

 

Problem z powyższymi wykresami jest taki, że poniewa lata edukacji są dyskretne, również kwantyle sa dyskretne i nie widać gładkiego rozkładu. Poniżej więc przedstawiono długością kreski coś innego, minowicie frakcję osób, które edukowały się przynajmniej określoną liczbę lat. Jako przykład wybierzmy grupę osób w wieku 15-20 lat, które w roku 2003 miały na koncie 13 lat edukcji (kreska najbardziej na lewo a później do góry). Frakcje osób można odczytać porównując długość tego odcina z odcinkiem od wykresu pudełkowego o najbliższej szarej pionowej linii. W rozważanej grupie mniej więcej 1/3 tego odcinka pomalowana jest na kolor średnio fioletowy, kolejna jedna trzecia na kolor jasno fioletowy a pozostała 1/3 nie jest pomalowana. Oznacza to, że mniej więcej (dokładne liczby trudno odczytać bez skali, nie są jednak tak bardzo ważne) 33% osób z w wieku 15-20 lat , które miały już na koncie 13 lat edukacji kontynuowały edukację przez kolejny rok, 33% osob kontnuowała edukację przez dwa lata, a reszta nie kontynuowała edukacji. Porównując długości kresek w każdej z grup wiekowych łatwiej nam ustalić kto w danej grupie wiekowej kontunuował edukację i jak długo.

I wkres dla lat 2009-2011

 

Zdaję sobie sprawę, że wykresy wymagają trochę koncentracji by je odczytać. Który z nich jest czytelniejszy i lepiej nadaje się do przedstawiania kontynuacji eduakcji (ceglasty czy fioletowy)? Czy te wykresy sa jakkolwiek czytelne? Czy może macie pomysł jak inaczej przedstawić tą samą informację by była czytelniejsza? Czy jest w tych wynikach coś naprawdę zaskakującego?

 

R, Kair, Cairo, wiek a liczba lat nauki

Dziś będzie o wielu tematach jednocześnie.
Po pierwsze przeglądając materiały z konferencji useR znalazłem informacje o pakiecie Cairo. Wstyd, że o tym pakiecie dowiedziałem się tak późno. Ale ciesze się że się dowiedziałem wystarczająco by napisać dlaczego.

Cairo to biblioteka do grafiki 2d umożliwiająca zapisywanie grafiki do różnych formatów, między innymi wektorowych formatów PS, PDF, SVG, ale również do rastrowych formatów PNG itp. Biblioteka pozwala na stosowanie takich miłych technik jak anty-aliasing itp. poprawiających wygląd grafiki, szczególnie rastrowej, szczególnie w porównaniu z tym co R produkuje domyślnie. Zobaczmy czy biblioteka ta odmieni rysunki na tym blogu. Zaczniemy od prostego przykładu, w którym porównamy liczbę lat nauki z liczbą przeżytych lat, oczywiście bazując na zbiorze danych o Diagnozie społecznej.

Aby nie zaciemniać tego co najważniejsze, nie będę tutaj wklejał kodu R, który generuje wykres. Osoby zainteresowane znajdą ten kod tutaj. W kodzie tym wykorzystujemy funkcję xyplot() z pakietu lattice do wygenerowania obiektu wyk opisującego wykres.

Porównamy wygląd grafiki zapisanej poleceniami png(grDevices), CairoPNG(Cairo) i CairoSVG(Cairo). W przypadku tej ostatniej funkcji rozmiary podajemy w calach, w poprzednich dwóch w pixelach.

# standardowa funkcja pakietu R
png("wiek_lnauki.png",600,600)
print(wyk)
dev.off()
# ten sam format png, ale z użyciem pakietu Cairo
CairoPNG("wiek_lnauki_cairo.png",600,600)
print(wyk)
dev.off()
# i tym razem grafika wektorowa SVG
CairoSVG("wiek_lnauki.svg",7,7)
print(wyk)
dev.off()

Poniżej wygenerowane pliki. Pierwszy w formacie png wygenerowany przez funkcję png.

Drugi w formacie png ale wygenerowany biblioteka Cairo.

I trzeci w formacie SVG, nie każda przeglądarka potrafi go wyświetlić, jeżeli poniżej nie widać obrazka to znaczy że trzeba zmienić przeglądarkę.

Czy widać różnice? Ogromne, szczególnie na krzywych które w pierwszym przypadku są niesamowicie spixelowane w drugim przypadku już znacznie gładsze. Widać to szczególnie w dużym powiększeniu. W dużym powiększeniu widać też zalety wektorowego formatu SVG, krzywe będą gładkie bez względu jak bardzo je powiększymy. Oczywiście za format wektorowy trzeba zapłacić. W zbiorze danych Diagnoza Społeczna znajdują się dane dla kilku tysięcy osób. Gdyby każdą z nich zaznaczyć punktem to wektorowy format w którym każdy z tych punktów byłby opisany, zajmowałby kilkanaście MB. Nie najlepiej jak na grafikę do umieszczenia w internecie. Dlatego też na trzecim z powyższych obrazków są tylko krzywe bez punktów.

Dyskusje o technikaliach mamy już za sobą, zobaczmy co w ogóle widać na tych wykresach. Porównujemy liczbę lat nauki versus wiek. Dane bierzemy zarówno dla osób ankietowanych w roku 2000 jak i 2011. Znaczna część osób uczestniczy w obu badaniach, dla tej grupy spodziewamy się, że lat przybędzie ale lat nauki niekoniecznie.
Ciągła linią zaznaczyłem wygładzona medianę, kropkowaną linią wygładzony kwantyl rzędu 90%.

Dla osób które obecnie są w wieku 40-60 lat, mediana liczby lat edukacji to 11, dla osób w wieku 25 lat ta mediana jest już o 2 lata wyższa, efekt coraz większej liczby osób studiujących i też zmian w systemie edukacji. Niższą medianę liczby lat edukacji u osób w wieku >70 lat można wytłumaczyć wojną.

Przyjrzyjmy się jeszcze kwantylowi rzędu 90%. Dla 30latków kwantyl ten wynosi 18 lat nauki, czyli ponad 10% dzisiejszych 30latków ma na koncie 18 lub więcej lat nauki. To sporo, ale dla niektórych uczenie się nigdy się nie kończy. W stosunku do stanu sprzed 11 lat coraz więcej lat spędzamy na edukacji. Czy jako społeczeństwo jesteśmy dzięki temu mądrzejsi?