Steve Jobs, stan nauki w Polsce i niezgoda na uliniawianie zależności

Ok, dzisiaj będzie ponownie o raporcie opracowanym w ramach programu Sprawne Państwo prowadzonego przez Ernst & Young. Odnosniki do raportu podalismy wczoraj. Dziś chciałbym przyjrzeć się wspólnie dwóm wykresom porównującym produktywność naukową w Polsce i w innych krajach.

Zacznę od jednego z moich ulubionych cytatów Steva Jobsa. Cytat dotyczy innowacyjności a innowacyjność kadry to moim zdaniem lepszy współczynnik oceny jakości uczelni niż produktywność liczona liczbą publikacji na nauczyciela akademickiego.

Innovation has nothing to do with how many R&D dollars you have. … It’s not about money. It’s about the people you have, how you’re led, and how much you get it.

Cytat ten nasunął mi się na myśl gdy zobaczyłem rysunek 11 w wspomnianym raporcie.

Dlaczego? Na tym wykresie (co za dobór państw do porównania?) Polska charakteryzuje się naniższymi rocznymi przychodami na pracownika. Na stronie 67 wspomnianego raportu napisano niebacznie ,,Wyniki estymacji ekonometrycznej wskazują w przypadku polskich uczelni wzrost finansowania na pracownika o 1% może być powiązany ze wzrostem efektywności badawczej aż o 4%”. Więc zwiększenie finansowania o 100% (co łatwo uzyskać zwalniając połowe pracowników) spowoduje wzrost efektywności o 400% (a tym samym przeskoczymy Finlandię i Niemcy, najbardziej zaawansowane technologiczie gospodarki w Europie).

Nie chciałbym tu romantycznie wieścić, że gdyby tylko Polska nauka była lepiej finansowana to stalibyśmy się liderem w Europie. Bo to nieprawda. Wcale nie chodzi tylko o ilość pieniędzy wpompowywanych (czy też w przypadku Polski, przesiąkających) w naukę. Chodzi o to czy naukowcy potrafią tę naukę uprawiać, czy potrafią współpracować, publikować, zarządzać zespołem itp. Moim zdaniem brak tych umiejętności to jeszcze większa bolączka niż problemy finansowe. Przygotowuję w wolnych chwilach esej ,,Fabryka i Świątynia”, szerzej tam ten temat rozwinę.

Ale na razie chciałbym porzestać na zakwestionowaniu sensowności dodawania linii trendu liniowego na powyższym wykresie.

Rozumiem, że gdy ma się młotek wszystko wygląda jak gwóźdź. Ale nawet w Excelu można dopasowywac inną krzywę trendu!
Model w którym średnia liczba publikacji zależy liniowo od rocznych przychodów na pracownika jest wysoce wątpliwy. Sama Polska na tym wykresie wygląda bardziej jak wartość odstająca, niż jak przypadek potwierdzający liniowość.

Drugi wykres w którym autorki wsadziły linie trendu liniowego jest na stronie 70 (wykres 14). Jest całkiem dobrą ilustracją paradoksu Simpsona.

 

Ta pseudoliniowość, która jest zaznaczona linią regresji wyliczona jest na bazie pięciu widocznych gołym okiem podpopulacji (nisko-publikujące uczelnie w UK, wysoko publikujące uczelnie w UK, uczelnie w Finlandii, Polsce i Szwajcarii, każde z nich tworząca osobne skupisko punktów na wykresie).

Co więcej w żadnej z tych podpopulacji trend nie jest podobny do wyrysowanego trendu liniowego. W Szwajcarii żaden trend liniowy nie jest widoczny, w dobrze publikujących uczelniach z UK krzywa trendu jest znacznie ostrzejsza, w słabo publikujaych uczelniach z UK jest znacznie słabsza.

Jedyny wniosek jest taki, że nie ma żadnego sensu liczyć pseudo trendu agregując uczelnie z czeterech państw razem.
Nie szukajmy liniowości na siłę tam gdzie ich nie ma a tym bardziej nie twórzmy wykresów, które sugerują tą zależność.

Ernst & Young, Sprawne Państwo a paradoksy w ocenie uczelni w Polsce

Dzisiaj podzielę się moim zaskoczeniem, gdy próbując odtworzyć wykres z raportu na podstawie danych z tego samego raporu otrzymałem zupełnie inne wyniki.

Kilka dni temu zgłosiłem apel o pomoc w zdobyciu danych dotyczących rozwoju pracowników naukowych. W ciągu tych kilku dni otrzymałem kilka listów z sugestiami ciekawych raportów dotyczący stanu nauki w Polsce. Między innymi od Krzysztofa T. dostałem namiar na raport ,,Produktywność naukowa wyższych szkół publicznych w Polsce” opracowany w ramach programu Sprawne Panstwo (program firmy Ernst & Young). Raport dostępny jest w postaci elektronicznej tutaj.

Po raporcie widać, że przygotowano go przez profesjonalistów. Ładnie dobrane odcienie szarości i pojawiające się łacińskie wtącenia sprawiają wrażenie rzetelności i profesjonalizmu. Jest też dużo tabelek z danymi (to na plus), odnośników do źródeł danych (to też na plus).

Niestety od strony statystycznej można się przyczepiać. Ponieważ generalnie cieszę się ze taki raport powstał, więc nie będę się czepiał bardzo, tylko na dwóch wpisach, tym i kolejnym ;-).

Zaczęło się od rysunku 12 ze strony strony 68 (patrz niżej) gdzie przedstawiona jest zależnośc pomiędzy przychodem na pracownika uczelni a liczbą publikacji na Nauczyciela Akademickiego (oznaczanego w całym raporcie konsekwentnie NA).

Pechowo na wykresie nie zaznaczono, która kropka to która uczelnia. Zaciekawiony która to kropka odpowiada najbardziej na prawo wysuniętej politechnice zacząłem przeglądać tabelę z danymi. Tabele 11 i 12 wydawały się pasować. W odpowiednich kolumnach przedstawiano i liczbę publikacji na NA i przychód na pracownika. Zrobiłem więc wykres o podobnych oznaczeniach jak ten prezentowany w raporcie, bazując na danych które przedstawiono w tymże raporcie i ze zdziwieniem zobaczyłem zupełnie inny obraz politechnik i uniwersytetów.

  • Z wykresu prezentowanego w raporcie wynika, że dwie uczelnie o najwyższych wskaźnikach publikacja na NA to uniwersytety.
  • Za to z wykresu prezentowanego na bazie danych które sa w raporcie wynika że w ścisłej czołówce uczleni o najwyższych wskaźnikach publikacja na nauczyciela akademickiego jest więcej politechnik.
  • Z wykresu prezentowanego w raporcie wynika, że przy tym samym przychodzie na uniwersytetach jest średnio więcej publikacji na PA niż na politechnikach (ciągła linia nad przerywaną)
  • Tymczasem z wykresu na bazie danych z raportu wynika rzecz zupełnie odwrotna, mianowicie że przy tym samym przychodzie na uniwersytetach jest średnio mniej publikacji na PA (ciągła linia pod przerywaną).

Przy okazji wyjasnijmy fenomen Uniwersytetu Jagielońskiego. Odstaje on znacząco od pozostałych uniwersytetów, tak bardzo że to aż zastanawia. Więc postawmy zagadkę dla czytelników, co ma UJ czego nie ma żadna duża z prezentowanych uczelni publicznych? Poniżej wykres tej samej zależności ale po usunięciu UJ. Pod wykresem znajduje sie odpowiedź na powyższą zagadkę.

UJ ma wydział lekarski i farmaceutyczny. We Wrocławiu, Warszawie czy Katowicach wydziały lekarski jest na Uniwersytecie Medycznym. Jeżeli chcieć uczciwie porównać różne uniwersytety to trzeba uwzględnić różną czestość publikowania w różnych dziedzinach. Umieszczanie UJ z wydziałem lekarskim w tej samej kategorii co pozostałe uniwersytety to błąd.

 

Różnica pomiędzy danymi a wykresami bieże się stąd, że dane przedstawiono dla jednego roku (2007/2008) podczas gdy na wykresach prezentowane są wskaźniki uśrednione z 10 lat, same wskaźniki nie sa jednak w raporcie prezentowane. Dziwne to.

 

Fundacja Nauki Polskiej, analiza przeżycia, wiek habilitacji i apel w sprawie danych

Zdarzało mi się na ramach tego bloga czepiać wykresów, że czegoś nie widać lub że widać coś czego nie ma. Dziś będę czepiał się wypowiedzi, które sugerują że pewien wniosek został wysnuty na podstawie wnioskowania statystycznego, ale gdy się zastanowić nad tym co to za wnioskowanie to pojawia się więcej pytań niż odpowiedzi.

Takie problemy są powszechne w gazetach skierowanych do szerokiego grona odbiorców. W tym przypadku jednak rzecz dotyczy zdania z ramki na 9 stronie rocznego raportu działania Fundacji na rzecz Nauki Polskiej (a więc największej w Polsce pozarządowej organizacji wspierającej Polską Naukę). FNP to organizacja od kórej można wymagać więcej, a mam też nadzieję, że wybaczy mi czepialstwo.

Chodzi o zdanie
,,Z badania karier laureatów programu START przeznaczonego dla najmłodszych uczonych, który fundacja realizuje od 1993r., wynika, że uzyskuja oni habilitację średnio o 9-10 lat wcześniej niż osoby niekorzystające z tego programu stypendialnego”.

Ok, co jest nie tak z tym zdaniem?

1. brak odnośnika do danych lub raportu na którym się opierano. Od innych organizacji bym tego nie oczekiwał ale FNP powinno wytyczać kierunki, a tym samym mogłoby udostępniać dane na podstawie których wnioskują.

2. Nie jest jasne jaką relację to zdanie ma pokazać. Czy to, że ci młodzi uczeni szybciej zrobili habilitację dzięki stypendium FNP, czy też czy fundacja umiejętnie odnajduje osoby które szybko zrobią habilitację (zgodnie z dewizą fundacji ,,wspierać najlepszych, aby mogli stać się jeszcze lepsi”)

3. Nie jest jasne kim są ci ,,niekorzystający z tego programu”.
Czy to rówieśnicy osób korzystajacych z programu, o podobnym potencjalne. Taka grupa kontrolna? Raczej nie. Bezsensowne byłoby losowe nieprzydzielanie stypendiów tylko po do by zbadać efekt programu.
Czy to rówieśnicy osób korzystających z programu, którzy nie aplikowali lub aplikowli ale nie otrzymali stypendium.
Czy tez wszyscy naukowcy bez wzgledu na wiek. To ostatnie rozwiązanie byłoby niedobre. Kiedys habilitacje i doktoraty robilo sie dłużej, nie bylo cztero czy trzyletnich studiow doktoranckich ale doktoraty i habilitacje robili asystenci/adiunkci laczac prace naukowa z innymi obowiazkami bez presji ze po ośmiu latach zatrudnienia będą wyrzuceni jeżeli habilitacji nie zrobią.

4. Najlepszą grupa kontrolną byliby rówieśnicy, ale wiele wskazuje że tak nie było.
Jeżeli program realizowany jest od 1993 roku a raport dotyczy roku 2010 to najstarsi stypendyści są 17 lat po otrzymaniu stypendium. Przyjmijmy uproszczenie, ze co roku podobna liczba osob otrzymuje stypendium START, wiec stypendyści są średnio 8.5 roku po otrzymaniu sypendium.
Stypendium START jest dla osob mlodych (do 30 roku zycia) najczesciej swieżo po doktoracie.
Trudno odgadnąć w ile lat robi sie szybko habilitaję, ale mysle ze srednio 6 lat w grupie stypendystow to bylby dobry wynik.
W grupie niestypendystow musialoby to być wiec 15-16 lat lub więcej po doktoracie. Ale program stypendialny nie jest tak długo prowadzony by mieć rówieśników robiących habilitację w takim wieku.

Ok, czyli wybór grupy kontrolnej jest niejasny, teraz zastanówmy się co z metodologią.
Do porównania obu grup uzyto średnich liczby lat do habilitacji.
Ale liczba lat do habilitacji to zmienna cenzurowana. W badanej grupie z pewnoscia sa osoby ktore jeszcze nie zrobiły habilitacji i pracuja w nauce oraz osoby ktore zrezygnowały ze ścieżki naukowej i nie beda robily habilitacji.
Liczenie średniej z tylko tych osób które zrobiły habilitacje jest błędem, poniewaz gubi informację jaka frakcja osób zrobiła habilitacje. Nawet pomijając te problemy to dla wielu rozkładów średnia nie jest dobrym miernikiem czegokolwiek.

Ok, sposób porównywani grup pozostawia wiele do zyczenia, ale takich porównań będzie coraz więcej, więc warto się zastanowić jak je robić. Np. czy czas do habilitacji różni sie i jak pomiędzy róznymi jednostkami naukowymi.

Odpowiednie byłyby narzędzia z analizy przyżycia, np. krzywa Kaplana Meiera pokazujące jaka frakcja osób zrobila habilitacje do k-tego roku. Lub funkcja intensywnosci / funkcja hazardu pokazujaca jaka jest częstość robienia habilitacji w k-tym roku.
Z krzywych Kaplana Meiera mozna by zobaczyć w jakim wieku najczęściej robiona jest habilitacja.

Ok, ale aby zrobić taka analizą trzeba mieć dane. Najlepiej w postaci wektora danych dla osob z informacja w jakim wieku dana osoba zrobila doktorat / habilitacje / czy otrzymala stypendium FNP i np gdzie teraz pracuje.

Ale skad takie dane wziac?

Tu prosba do Was, ktokolwiek widział, ktokolwiek wie o miejscu z ktorego mozna takie dane dostac prosze o informacje.

Próbowałem serwisu http://nauka-polska.pl, niestety jest tam limit na liczbe zapytań do bazy danych które mozna wykonac z jednego adresu IP w jednostce czasu. Ten limit można by obejsc ale sam fakt ze go ustawiono oznacza, ze twórcom nie spodobaloby sie twórcom gdyby ich dane ściągnąć i upublicznić. Ale może są jakies inne źródła publicznie dostepnych danych?

Jakie będą ceny mieszkań za 12 miesięcy?

Przeglądałem dzisiaj stare wydania Rzeczpospolitej, i znalazłem ciekawy wykres w kwietniowym wydaniu (http://www.rp.pl/galeria/8,2,641431.html).

Deweloperom zadano pytanie czy ceny mieszkań wzrosną czy spadną w przyszłym roku. Porównano wyniki z odpowiedzi z czerwca i grudnia roku 2010. Odpowiedzi przedstawiono za pomocą następującego wykresu.

 

Ponownie, najdziwniejsze w tym wykresie jest to, że na pierwszy rzut oka nie widać czy i jak odpowiedzi się zmieniły. Najbardziej w oczy rzuca się para dwóch czerwonych i dwóch zielonych słupków. Nie wiedzieć czemu czerwone odpowiadają grudniowi a zielone czerwcowi.

Do pokazywania uporządkowanych zmiennych jakościowych lepsze są wykresy paskowe. Pozwalają ona na łatwe porównywanie skumulowanych liczebności. Przedstawmy więc te dane co powyżej za pomocą prostego wykresu paskowego.

Myślę, że po spojrzeniu na ten wykres nikt nie ma wątpliwości że opinie pytanych deweloperów zmieniły się znacznie przez te 6 miesięcy.

 

Bilion miliardów a Tufte

Europa gasi pożar olbrzymią ilością wirtualnych pieniędzy (niestety pożar nie jest wirtualny, ale to temat dla innego bloga).
Rzeczpospolita (nomen omen, której infografiki dosyć lubię) artykuł o ratowaniu sytuacji finansowej w Europie (tutaj link do artykułu) okrasiła takim oto wykresem

 

Jaki jest problem z tym wykresem? To, że zgodnie z opisem dane są w miliardach a na rysunku pojawia się słowo bilion, które sugeruje że potencjalne zasoby będą wynosiły miliard bilionów, to już pomijam.

Klasyczny problem z takimi wykresami polega na tym, że nie jest jasne czy podanym liczbom odpowiada wysokość, szerokość czy pole graficzki.

Pomiar średnicy bilionowej monetki daje 190px, pomiar średnicy drugiej co do wielkości monetki daje 125px. A więc to pole odpowiada podanej liczbie.

Szkoda, bo jak się okazuje ludzie bardzo niedokładnie potrafią porównywać pola figur, gorzej jest już tylko z objętościami. Najlepiej porównuje się długości odcinków w poziomie (przynajmniej zgodnie z badaniami Tufty’ego).

Więc zróbmy wykres w R tych samych liczb, ale bez fajerwerków.

I kod R który ten wykres wygenerował

 

1
2
3
4
5
6
7
8
9
10
x <- c(106.4, 376, 440, 1000, 74.1)
par(mar=c(5,20,3,3))
plot(1,type="n", las=1, yaxt="n",ylab="", xlab="nakłady w mld euro",xlim=c(0,1000), ylim=c(0.5,5.5), bty="n")
sapply(1:5, function(i) lines(c(0,x[i]),c(i,i)))
abline(v=seq(100,1000,100),col="grey95")
abline(v=0)
points(x, 1:5, pch=19)
mtext(side=2,line=-1.5,at=1:5, c("potrzeby kapitalowe bankow w Europie", 
     "pozyczki udzielone Portugali Irlandi Grecji", "dotychczasowe zasoby Europejskiego Funduszu Stabilnosci", 
     "potencjalne zasoby Europejskiego Funduszu Stabilnosci", "rezerwy walutowe Polski na koniec X 2011"), las=1, cex=0.9)

Jak pokazać 27 by wyglądało jak 20

Wczoraj studenci z proseminarium prezentowali różne znalezione grafiki dotyczące wyborów i partii politycznych.
Poniższa przypadła mi najbardziej do gustu, pochodzi ze strony szczecinek24.

Co jest w tej grafice ciekawego? Przyjrzyjmy się wysokościom słupków. Po starannym zmierzeniu w programie graficznym mamy:

słupek PO 99 pixeli

słupek PiS 65 pixeli

słupek SLD 25 pixeli

słupek PSL 11 pixeli

Gdybyśmy przeskalowali te pixele tak by PO miało 31 jednostek, to kolejne słupki miałyby następującą liczbę jednostek

PO 31, PiS 20, SLD 8, PSL 3

Ale nijak to nie pasuje do procentów z tego obrazka! Powinno być 31, 27, 16, 7.5

Zobaczmy jak wyglądałby ten wykres, gdyby wysokość słupków odpowiadała wpisanym procentom

 

Różnica pomiędzy Po i PiS nie wygląda tak samo. Poparcie dla SLD po prawej stronie też wygląda lepiej niż po lewej

Btw: dosyć często zdarza mi się krytykować wykresy kołowe za to, że oszukują percepcje. Na co najczęściej rozmówcy odpowiadają, co z tego że oszukują percepcję, skoro i tak podawane są procenty. Więc procenty można sobie porównać. Powyższy przykład powinien pokazać, że nawet jeżeli podamy  procenty to i tak przy szybkim czytaniu opieramy się na grafice i a nie na liczbach. Patrząc na lewy wykres mamy wrażenie że poparcie dla PSL jest znikome, dla SLD małe a dla PO znacznie większe niż dla pozostałych partii. Gdybyśmy porównywali liczby albo słupki z prawego wykresu to już byśmy takiego wrażenia nie mieli.

 

Podkręcone wykresy

Trafiłem dziś na taki wykres:

źródło: Bankier.pl,artykuł http://www.bankier.pl/wiadomosc/Gospodarcze-osiagniecia-partii-politycznych-2417944.html

Artykuł dotyczył dyskusji która partia bardziej zadłuża Polskę, ale odłóżmy na bok politykę i zastanówmy się czemu autor tego wykresu nie wygiął go w rogala lub spirale by uzyskać jeszcze dziwniejszy wizualnie efekt.
Patrząc na ten rysunek można by pomyśleć że został on specjalnie tak opracowany, by nie dało się z niego odczytać ile wynosiło zadłużenie polski w latach 2005-2007.
Na szczęście dane są łatwo dostępne na stronie ministerstwa finansów http://www.mf.gov.pl/dokument.php?const=5&dzial=590&id=70516.
Więc relatywnie łatwo można taki wykres przygotować R bez żadnych dodatkowych zniekształceń osi
Nie jest to bogaty w ornamenty  wykres, brakuje na nim różnej wielkości znaczków poszczególnych partii, można za to odczytać prawie dla każdego miesiąca ile wynosiło zadłużenie Polski w danym okresie.
Kod R użyty do wygenerowania tego wykresu jest następujący

Czytaj dalej Podkręcone wykresy

Co się dzieje z cenami mieszkań?

Kilka dni temu pisałem o zmianach w cenach ofertowych cen mieszkań. Również kilka dni temu przeczytałem artykuł na GW o tytule  ”Mieszkań więcej niż kupujących. Ceny mogą jeszcze spaść ” (tutaj link).

Myślę, że każdy po przeczytaniu takiego tytułu ma prawo oczekiwać, że w artykule autor wykaże, że ceny spadają i że spadać będą. W tym kontekście dziwnie wygląda  wykres z tego samego artykułu (wklejony poniżej).

Co prawda miasta zostały ułożone w kolejności od najdroższych do najtańszych, przez co na pierwszy rzut oka nie patrząc an liczby widać wyraźny trend spadkowy, ceny lecą na łeb na szyję. Jednak gdy się przyjrzeć liczbom w trzech miastach ceny wzrosły a w pięciu zmalały. Już nie ma takiej dramatycznej zmiany.

Ok, pomińmy dyskusję czy ta manipulacja percepcją jest celowa czy nie. Zastanówmy się jak inaczej można zaprezentować te same dane. Poniżej dwa wykresy pierwszy nadawałby się do artykułu ,,Ceny mieszkań rosną i ta bańka puchnąć będzie wiecznie”, drugi jest bardziej wyważony.

 

I jeszcze dorzucę kod w programie R, który posłużył do wygenerowania tego obrazka.

# dane
x1 = c(8207, 6764, 5988, 5619, 5712, 4281, 4279, 3427)
x2 = c(7826, 6577, 6146, 5660, 5396, 4130, 4116, 3432)
lab = c("Warszawa", "Krakow", "Wroclaw", "Gdansk", "Poznan", "Bialystok","Lodz","Katowice")
# pierwszy wykres
par(mfrow=c(2,1), mar=c(0.5,0,0.5,0), oma=c(5,6,5,1))
plot(x1,x2, pch=19, xlim=c(3000, 9000), ylim=c(3000, 9000), xlab="", ylab="", las=1, xaxt="n")
axis(3)
mtext("cena za m2 w II kw 2010r", 3, line=3)
mtext("cena za m2 w II kw 2011r", 2, line=4)
abline(v=(3:9)*1000, lty=2, col="grey90")
abline(0,1)
par(xpd=NA)
text(x1, x2, lab, adj=c(0.5,-0.6))
# drugi wykres
par(xpd=F)

plot(x1,(x2/x1 - 1)*100, pch=19, xlim=c(3000, 9000), ylim=c(-6,4), xlab="", ylab="", las=1)
abline(v=(3:9)*1000, lty=2, col="grey90")
abline(0,0)
par(xpd=NA)
text(x1, (x2/x1 - 1)*100, lab, adj=c(0.5,-0.6))
text(x1+330, (x2/x1 - 1)*100, paste(x1,ifelse(x2>x1," +"," "),x2-x1," pln", sep=""), adj=c(0,-0.6), col=ifelse(x2>x1,"green","red"))
title(xlab="cena za m2 w II kw 2010r", line=3)
title(xlab="+ wzrost/spadek ceny w roku 2011", col.lab="black", line=4)
mtext("zmiana ceny po 12 msc %", 2, line=4)
par(xpd=F)

 

Ile Polacy zyskali/stracili

Prowadzilem kiedys zajecia poświęcone wizualizacji danych i na potrzeby tych zajęć tropiłem wykresy które, trudno poprawnie odczytać (z woli lub niewiedzy autora).

Tak więc gdy dzisiaj na stronie Wyborczej znalazłem poniższy wykres poczułem nieopanowaną chęć wrzucenia go tutaj  dla potomnych.

W artykule http://wyborcza.biz/biznes/1,101716,10310225,POPiS_owe_obiecanki_cacanki___tyle_obiecali__to_zrobili.html znajduje się wielce ciekawy wykres

Zatytułowany ile miesięcznie zyskali/stracili Polacy. Wydać wyraźniej, że najbogatsi najbardziej za PO, wiadomo żę w złotych i że miesięcznie tylko nie nie jest jasne czy zyskali czy stracili.

Ale może to tylko kwestia smaku, przepraszam, znaku.